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前 言 


在 写作 本 书 的 时 候 ， 国 内 大 多 数 参 考 书 还 是 Python 2.7 版 本 ， 为 了 给 在 校 大 学 生 开设 
这 门 Python 课程 ， 我 们 选择 了 Python 3.x， 毕 竞 Python 3.x 才 是 未 来 。 与 其 让 学 生 们 从 
Python 2.7 开始 学 ， 还 不 如 直接 从 Python 3.x 上 手 ， 以 掌握 更 加 完善 的 知识 。 

作者 通过 近 三 轮 的 教学 ， 对 Python 3.x 的 基础 知识 进行 了 筛选 和 总 结 ， 特 编写 此 书 ， 
希望 能 够 给 准备 使 用 Python 的 读者 提供 一 些 方便 。 

本 书 由 浅 入 深 ， 比 较 适 合 那些 从 未 接触 过 计算 机 语言 的 读者 。 每 章 配 有 大 量 的 示例 代 
码 ， 和 希望 读者 在 使 用 本 书 的 时 候 ， 能 够 尽 可 能 自己 敲 代码 ， 少 用 复制 粘贴 的 方法 ， 这 样 有 
利于 读者 尽快 进入 “角色 ”， 上 毕竟 “拷贝 得 来 终 觉 浅 ”。 

本 书 的 前 3 章 是 Python 的 基础 知识 ; 第 4 章 是 利用 Pandas 库 对 数据 进行 处 理 、 分 析 
以 及 实现 数据 可 视 化 ; 在 第 5 章 还 列 出 了 Python 对 文件 的 读 取 、 存 储 方法 ， 对 网 络 怜 虫 、 
矩阵 运算 也 做 了 简单 的 介绍 。 

作者 在 编写 本 书 的 过 程 中 ， 得 到 了 Python 工程 师 齐 伟 的 帮助 。 在 开设 这 门 课 的 时 候 ， 
齐 伟 通过 视频 的 形式 与 我 们 一 起 分 享 了 Python 开发 经 验 。 本 书 在 完稿 时 ， 得 到 了 研究 生 间 
青 、 陈 文 华 、 马 秀 、 攀 宇 凯 和 卢 超 在 文字 校对 上 的 帮助 。 

最 后 感谢 广大 读者 选择 了 本 书 。 作 者 E-mail: yubg@nuc.edu.cn，QQ: 120487362。 欢 
迎 各 位 读者 批评 指正 。 
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第 1 音 


Python 简介 


mm Python 数据 分 析 基 础 


Python 语言 是 一 种 简单 而 又 功能 强大 的 编程 语言 。 通 过 学 习 ， 你 会 发 现 ，Python 语言 
注重 的 是 如 何 解 决 问 题 ， 而 不 是 编程 语言 的 语法 和 结构 。 

Python 的 官方 介绍 是 : Python 是 一 种 简单 易学 、 功 能 强大 的 编程 语言 ， 它 有 高 效率 的 
高 层 数 据 结 构 ， 能 简单 而 有 效 地 实现 面向 对 象 编程 。 

Python 简洁 的 语法 和 对 动态 输入 的 支持 ， 再 加 上 解释 性 语言 的 本 质 ， 使 得 它 在 大 多 数 
平台 上 的 许多 领域 中 都 是 一 个 理想 的 脚本 语言 ， 特 别 适 用 于 快速 的 应 用 程序 开发 。 不 需要 
任何 编程 基础 ， 完 全 可 以 从 零 开 始 学 习 。 

大 注意 : Python 语言 的 创造 者 Guido van Rossum 是 根据 英国 广播 公司 的 节目 “蟒蛇 
飞行 马戏 ”来 命名 这 个 语言 的 ，Python 的 英文 本 意 是 “ 巨 蛇 ， 大 蟒 ”。 


Python 确实 是 一 种 十 分 精彩 且 强大 的 语言 。 它 合理 地 结合 了 高 性 能 及 使 得 编写 程序 简 
单 有 趣 的 特色 。 

Python 的 缺点 : 前 后 版 本 不 兼容 。 这 确实 是 让 新 、 老 学 习 人 员 感 到 有 点 头痛 的 事情 。 

因为 前 后 版 本 不 兼容 ， 导 致 许多 人 为 选择 Python 2.x 还 是 Python 3.x 发 愁 。 本 书 推荐 
使 用 Python 3.x。 

的 确 ， 当 前 还 有 相当 多 的 程序 员 在 使 用 Python 2.7， 不 过 Python 3.x 才 是 Python 发 展 
的 未 来 ， 这 就 像 Windows 7 和 Windows 10 谁 是 未 来 一 样 。 

我 们 发 现 ，Python 3.x 中 的 新 特性 确实 很 妙 ， 很 值得 进行 深入 学 习 。 

其 实 ， 我 们 也 不 用 担心 ， 如 果 了 解 了 Python 3.x， 则 Python 2.7 的 代码 阅读 起 来 是 根本 
不 成 问题 的 。 


1.1 安装 Python 


Windows 用 户 可 以 访问 https://python.org/download， 从 网 站 中 下 载 最 新 的 版 本 ， 大 小 
约 为 27.4MB 。 与 其 他 大 多 数 语 言 相 比 ，Python 的 安装 包 算 是 十 分 紧凑 的 ， 其 安装 过 程 与 
其 他 Windows 软件 类 似 。 

在 本 书 即将 完成 的 时 候 ， 我 们 使 用 的 是 最 新 版 Python 3.5.1， 所 使 用 的 计算 机 系统 为 
Windows 10。 

安装 Python 很 简单 ， 双 击 python-3.5.1.exe， 勾 选 Add Python 3.5 to PATH， 再 单 击 
Install Now 即 可 ， 如 图 1-1 所 示 ， 其 下 方 已 经 显示 了 安装 路 径 。 安 装 完毕 后 ， 会 显示 安装 
成 功 界 面 ， 最 后 单 击 Close 按钮 就 可 以 使 用 了 。 

安装 完成 后 ， 在 “开始 ”菜单 中 会 显示 安装 目录 ， 如 图 1-2 所 示 。 当 我 们 要 编写 代码 
时 ， 直 接 选 择 IDLE 命令 即 可 。 


2 


> 


2 Python 3.5.1 (32-bit) Setup 


Install Python 3.5.1 (32-bit) 


Select Install Now to install Python with default settings, or choose 
Customize to enable or disable features. 


罗 Install Now 
Ci\Users\yubg\AppData\Local\Programs\Python\Python35-32 
Includes IDLE, pip and documentation 


Creates shortcuts and file associations 


一 Customize installation 


Choose location and features 


python 
for Install launcher for all users (recommended) 


windows 


图 1-1 安装 界面 
P 
P3 引 powerpoint 2016 
Pa publisher 2016 


图 ”Ppython 3.5 


By pt (python 3;5.. 
涡 Python 3.5 (32-bib 最 i 


外 Python 3.5 Manu... 


本 python 3.5 Modul..， 电 省 添 j 


1-2 “开始 ”菜单 中 的 安装 目录 


如 果 是 在 Windows 7 系统 中 ， 安 装 完毕 后 ， 还 要 进行 环境 的 配置 (以 下 是 在 Windows 7 
系统 上 安装 的 Python 3.3 版 本 ，3.5 版 本 的 安装 方法 大 致 相同 )， 有 具体 方法 如 下 。 

打开 “控制 面板 ”窗口 ， 单 击 “ 系 统 ” 图 标 ， 打 开 “ 系 统 ” 窗 口 ， 在 左 侧 单 击 “ 高 级 
系统 设置 ”图 标 ， 将 弹出 “系统 属性 ”对 话 框 。 在 该 对 话 框 中 单 击 “ 环 境 变 量 ” 按 钮 ， 将 
弹出 “环境 变量 ”对 话 框 ， 在 “系统 变量 ”列表 框 中 选择 Path 选项 ， 然 后 单 击 “编辑 ” 按 
钮 ， 在 弹出 的 “编辑 系统 变量 ”对 话 框 中 编辑 Path 变量 。 把 “;C:\Python33” 添 加 到 变量 
值 的 末尾 ， 如 图 1-3 所 示 。 当 然 ， 前 提 是 Python 已 经 正确 地 安装 在 C 盘 的 根 目录 下 ,， 即 C 
盘 中 已 经 存在 Python33 文件 夹 。 

然后 在 DOS Shell 命令 提示 符 下 输入 “python”， 如 果 看 到 如 图 1-4 所 示 的 信息 ， 就 说 
明 Python 已 经 安装 成 功 了 。 
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操作 中 心 


Windows Update 


:Nsers»2cd .. 


CN>cd python33 


Python 
D64>] on win32 


: \Python33> 


图 1-4 中 显示 的 是 在 C 盘 下 已 安装 Python， 目 录 为 C:\Python33。 如 果 与 此 不 一 致 ， 需 


要 先 下 载 并 安装 Python。 


控制 团 板 所 有 控 利 向 识 项 ， 到 


hm cr a 


辣 辑 系统 变 县 


| 


系统 屋 性 


变星 名 8) 


变 人 插值 7): 


Path 


WindowsPowerShell\vi. O\:;C: \Python3| 


高 


计算 机 名 | 硬件 
要 进行 大 多 数 更 改 ， 你 和 


确定 


性 能 

视觉 效果 ， 处 理 器 计划 
值 
Windows_ET 


C:\Windows\systen32:C AWindows;... 
CON:. EXE:. BAT: . CMD: AYES:. YEE 


用 户 配 音 康 件 
气 您 党 录 有 关 的 点 面 调 


MNFA 
EE TI [TS 


icrosoft Windows ChR 本 6.3.?96691] 
《cc> 2613 Microsoft Corporation 


UsePrsNyubgz>zcd .. 


CC: \Python33>python 
3.3.5 Cv3.3.5:62cf 4e77Ff785., 


"copyright"’, 


启动 和 故障 恢复 
系统 启动 、 系 统 失 败 [确定 |][ 职 清 
ET 
环境 变 重 0...。 ] 
只 入 
[ 确 E |[ 了 尚 | 
rv J 加 更 改 讼 晤 
计算 机 全 各 jason-PC 
Se v 
> 
> 
图 1-3 系统 变量 的 设置 
命令 提示 符 学 


保留 所 有 权利 。 


Mar 9 2914- 1@8:35:85> [MSC v.1688 64 bit CAM 


"credits'’ or "license for more information. 


图 1-4 在 命令 提示 符 下 测试 Python 安装 


TI 


后 面 还 会 介绍 Python 的 其 他 安装 方法 ， 目 的 是 为 了 避免 安装 复杂 的 Python 数据 包 ， 


如 pandas、numpy 等 。 


关于 Python 下 载 和 学 习 的 网 站 很 多 ， 例 如 : 
@@ http://freelycode.com/fcode/downloadinstall?listall=True 


© www.freelycode.com 


®© http://pythontutor.com/ 
综 上 所 述 ， 对 于 Windows 系统 ， 要 安装 Python， 只 须 下 载 安 装 程序 ， 然 后 双击 它 就 可 
以 了 ， 是 非常 简单 的 。 从 现在 起 ， 我 们 假设 已 经 在 计算 机 系统 里 安装 了 Python 3.5。 


> 


打开 Python 的 IDLE， 启 动 Python 解释 器 。 
我 们 在 >>> 提 示 符 后 面 输入 print(‘Hello World])， 然 后 按 Enter 键 ， 应 该 可 以 看 到 输出 
了 Hello World， 如 图 1-5 所 示 。 


E hon 3.5.1 Shell 一 口 XK 
pyt 


File Edit Shell Debug Options Window Help 

Python 3.5.1 (v3.65.1:37a07cee5969, Dec 6 2015, 01:38:48) [MSC v. 1900 32 bit 【In < 
tel)] on win32 

Type “copyright”, “credits” or "license()” for more information. 

>>> print( Hello World’ ) 

Hello World 

>>> 


1-5 IDLE 珊 面 


3 关 注意 : ” 此 处 的 >>> 为 系统 自动 显示 的 提示 符 ， 不 需要 人 为 地 输入 ， 而 程序 中 所 涉及 
的 括号 ()、 引 号 “等 ， 都 需要 在 英文 半角 状态 下 输入 . 


1.2 Python 2 和 Python 3 的 区 别 


本 节 我 们 讲解 Python 2 和 Python 3 的 主要 区 别 。 

1. 性 能 

Python 3.0 运行 PyStone Benchmark 的 速度 比 Python 2.5 慢 30%。Guido 认为 Python 
3.0 有 极 大 的 优化 空间 ， 在 字符 串 和 整 型 操作 上 可 以 取得 很 好 的 优化 结果 。 目 前 Python 3.5 
版 本 的 性 能 已 经 优 于 版 本 2.7。 

2. 编码 

Python 3.x 源码 文件 默认 使 用 utf-8 编码 ， 这 就 使 得 以 下 代码 是 合法 的 ， 但 在 Python 
2.x 中 是 不 可 思议 的 事情 ， 对 于 中 国人 来 说 是 个 “福音 ”: 


>>> 中 国 = "china' 
>>> print (中 国 ) 
china 

>>> 


3. 语法 


(1) 去 除了 不 等 号 <>， 全 部 改 用 !=。 
(2) 关键 词 加 入 as 和 with， 还 有 True、False、None。 
(3) 整 型 除法 返回 浮 点 数 ， 要 得 到 整 型 结果 ， 须 使 用 //。 
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(4) 去 除 print 语句 ， 加 入 printO 函 数 实 现 相 同 的 功能 。 同 样 地 ， 还 有 exec 语句 ， 已 


经 改 为 exec() 函 数 。 
例如 : 
print "The answer is", 2*2 # 2.x 
print ("The answer is", 2*2) 不 对 


(5) 改变 了 顺序 操作 符 的 行为 ， 例 如 x<y， 当 x 和 y 类 型 不 匹配 时 抛 出 TypeError， 而 


不 是 返回 随机 的 bool 值 。 


(6) 输入 函数 有 改变 ， 删 除了 raw_input， 用 input 代替 。 
读 取 键盘 输入 的 方法 如 下 : 


guess = jint(raw input('Enter an integer : ')) Bs 


guess = int(input('Enter an integer : ')) 二 
(7) 删除 了 cmpO 比 较 函 数 。 
4. 数据 类 型 


(1) Python 3.x 去 除了 long 类 型 ， 现 在 只 有 一 种 整 型 int， 但 它 的 行为 就 像 2.x 版 


本 的 long。 


(2) dict 的 .keysO、.items 和 .values(0) 方 法 返回 迭代 器 ， 而 先前 的 iterkeys0O 等 函数 都 被 


废弃 。 同 时 去 掉 的 还 有 dict.has keyO0， 用 in 蔡 代 。 


5. 异常 


(1) 所 有 异常 都 从 BaseException 继承 ， 并 删除 了 StandardError。 

(2) 去 除了 异常 类 的 序列 行为 和 .message 属性 。 

(3) 用 raise Exception(args) 代 蔡 raise Exception, args 语法 。 

(4) 捕获 异常 的 语法 改变 ， 引 入 了 as 关键 字 来 标识 异常 实例 。 在 Python 2.5 中 : 


之 > 
raise NotIimplementedError('Error') 
except NotImplementedError, error: 


print error.message 


ErEOr 
>>> 


在 Python 3.0 中 : 


> wi 
raise NotImplementedError('Error') 
except NotImplementedError as error: # 注 意 这 里 的 as 
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print (str (error)) 
Error 
>>> 


6. 模块 变动 

(1) 移 除 了 cPickle 模块 ， 使 用 pickle 模块 代替 。 

(2) 移 除 了 imageop 模块 。 

(3) 移 除了 audiodev、bastion、bsddb185、exceptions、linuxaudiodev、md5、mimify、 
MimeWriter、popen2、rexec、sets、sha、 stringold、strop、sunaudiodev、timing 和 xmllib 
模块 。 

(4) 移 除 了 bsddb 模块 (单独 发 布 ， 可 以 从 http://www.jcea.es/programacion/pybsddb.htm 
获取 )。 

(5) 移 除了 new 模块 。 

(6) os.tmpnam() 和 os.tmpfile0 函 数 被 移动 到 tmpfile 模块 下 。 


7. 其 他 
(1) xrange() 改 名 为 range0， 要 想 使 用 range(0 获 得 一 个 list， 必 须 显 式 调用 : 


>>> list (range (10)) 
[87 gs pa 3 4, 3 6， 过 87 9] 
>>> 


(2) bytes 对 象 不 能 hash， 也 不 支持 b.lower0、b.strip0 和 b.split0 方 法 ， 但 对 于 后 两 
者 ， 可 以 使 用 b.strip(b“\n\tir \f) 和 b.split(b“) 来 达到 相同 的 目的 。 

(3) zip0、mapO 和 filter0 都 返回 迭代 器 。 

(4) file 类 被 废弃 ， 在 Python 2.5 中 : 

>>> file 

<type 'file'> 

和 >> 


在 Python 3.x 中 : 


> 

Traceback (most recent call last): 

File "<pyshell120>", line 1, in <module> 
file 

NameError: name '‘'file' is not defined 
>>> 
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本 章 小 结 
本 章 主 要 学 习 了 Python 的 安装 和 IDLE 的 启用 ， 以 及 了 解 了 Python 2.7 和 Python 3.x 
之 间 的 差异 。 
练 习 


(1) 请 将 IDLE 的 Shell 界面 字体 调试 成 18 号 等 线 light 字体 。 
(2) 在 Shell 编辑 器 的 >>> 后 输入 help0， 查 看 本 机 安装 的 Python 版 本 信息 。 
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我 们 先 了 解 Python 的 几 个 语法 常识 。 

1. 代码 注释 方法 

(1) 在 一 行 中 ，“#” 后 的 语句 不 再 执行 ， 而 表示 被 注释 。 

(2) 如 果 要 进行 大 段 的 注释 ， 可 以 使 用 三 个 单 引号 C”) 或 者 双 引 号 (*”*”) 将 注释 内 容 包 
围 。 单 引号 和 双 引 号 在 使 用 上 没有 本 质 的 差别 。 

【 例 2-1】 三 个 双 引 号 注释 段落 : 


# -*- coding: utf-8 -*- 


Created on Sun Mar 13 21:20:06 2016 
Qauthor: yubg 


1is=[1,2,3] 
for i in lis:  # 半 和 角 状 态 冒 号 不 能 少 ， 下 一 行 注意 缩 进 
i+=1 


print (i) 

本 例 不 需要 上 机 操作 ， 仅 为 展示 用 法 。 

2. 用 缩 进来 表示 分 层 

Python 不 像 C 语言 那样 用 {} 来 表示 语句 块 ， 而 是 通过 让 代码 缩 进 4 个 空格 来 表示 分 
层 ， 当 然 也 可 以 使 用 Tab 键 ， 但 不 要 混合 使 用 Tab 键 和 空格 来 进行 缩 进 ， 否 则 会 使 程序 在 
跨 平 台 时 不 能 正常 工作 ， 官 方 推荐 的 做 法 是 使 用 四 个 空格 。 

一 般 来 说 ， 行 尾 遇 到 “:” 就 表示 下 一 行 缩 进 的 开始 ， 如 例 2-1 中 的 “for i in lis” 行 尾 
有 冒号 ， 下 一 行 的 “i+=1” 就 需要 缩 进 四 个 空格 。 

3. 语句 断 行 

一 般 来 说 ，Python 中 的 一 条 语句 占 一 行 ， 在 每 条 语句 的 结尾 处 不 需要 使 用 分 号 (;)。 但 
在 Python 中 也 可 以 使 用 分 号 ， 表 示 将 两 条 简单 语句 写 在 一 行 。 但 如 果 一 条 语句 较 长 ， 要 分 
几 行 来 写 ， 可 以 使 用 “\” 来 进行 换行 。 分 号 还 有 个 作用 ， 使 用 在 一 行 语句 的 末尾 ， 表 示 对 
本 行 语句 的 结果 不 打印 输出 。 一 般 地 ， 系 统 能 够 自动 识别 换行 ， 如 在 一 对 括号 中 间或 三 引 
号 之 间 均 可 换行 。 例 如 下 面 代 码 中 的 第 三 行 较 长 ， 若 要 对 其 分 行 ， 则 必须 在 括号 内 进行 ( 包 
括 圆 括 号 、 方 括号 和 花 括号 ): 

from pandas import DataFrame  # 导 入 模块 中 的 函数 ， 后面 再 讲 


from pandas import Series 
df = DataFrame ({'age':Series([26,85,64]),'name':Series(['Ben’','Joh','Jef'])}) 
Brint (are 
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分 行 后 的 第 二 行 一 般 空 四 个 空格 ， 在 3.5 版 本 中 已 经 优化 ， 可 以 不 空 四 个 空格 ， 但 是 
在 较 低 的 3.x 版 本 中 不 空 四 个 空格 会 报错 。 


from pandas import DataFrame 

from pandas import Series 

df = DataFrame ({'age':Series([26,85,64]), # 此 语句 分 成 了 两 行 
'name':Series(['Ben','Joh', 'Jef'])}) 

print (df) 


4. print() 的 作用 
printO 会 在 输出 窗口 中 显示 一 些 文本 或 结果 ， 便 于 验证 和 显示 数据 。 
5. 使 用 转 义 符 


如 果 需 要 在 一 个 字符 串 中 先入 一 个 引号 ， 该 如 何 操作 ? 
有 两 种 方法 : 可 以 在 引号 前 加 反 斜 枉 人 ， 或 者 用 不 同 的 引号 包围 这 个 引号 。 
例如 : 


>>>sl='I\'am a boy. ' # 可 以 使 用 转 义 符 \ 
>>>print(s1) 


Tum a DOVEe 


>>>s2="I'am a boy. " # 也 可 以 用 不 同 的 引号 包围 起 来 ， 此 处 用 双 引 号 是 为 了 区 分 单 引号 
>>>print (s2) 

I'am a boy. 

> 


转 义 符 详 见 本 章 2.2.5 小 节 的 内 容 。 
2.1 数据 类 型 


Python 总 共有 6 种 数据 类 型 ， 分 别 是 数字 型 (Numbers)、 字 符 串 型 (String)、 列 表 型 
(Lisb、 元 组 型 (Tuple)、 集 合 型 (Sets) 和 字典 型 (Dictionaries)。 

数字 型 又 可 划分 为 整数 型 inb、 浮 点 型 floab、 布 尔 型 (booD 和 复数 型 (complex)。 

在 Python 中 有 4 种 类 型 的 数 一 一 整数 、 长 整数 、 浮 点 数 和 复数 。 

例如 ，2 是 一 个 整数 的 例子 。 

长 整数 不 过 是 大 一 些 的 整数 。 

3.23 和 52.3E-4 是 浮 点 数 的 例子 ，E 标记 表示 10 的 圭 。52.3E-4 表示 52.3x10”。 

(-5+4j) 和 (2.3-4.6j) 表 示 的 是 复数 。 
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查看 数据 类 型 的 方法 是 : 
>>> type (变量 名 ) 


例如 : 


>>> a = 1 #int 

>>> type (a) 

LASS Ll 

>>> b = True #boolean 
>>> 七 YPe (b) 

<elass "Dool'> 

>>> C = 4+3]j #complex 
>>> 七 YPe (Cc) 

<class ‘complex'> 

>>> d= 3.14 #float 
>>> type (qd) 

Olass floab > 


>>> 


2.2 ”运算 符 与 功能 命令 
2.2.1 算数 运算 符 


算数 运算 符 如 表 2-1 所 示 。 
表 2-1 算术 运算 符 


操作 符 例子 (a=10,b=20) 
a+b= 30 

a-b=-10 

* 人 a*b=200 

/ b/a=2 

% bs%a=0 


、 有 a**b=100000000000000000000，, 
i 指数 ， 返 回 a 的 b 次 需 内 的 0 先入 


// 取 整 除 ， 返 回 商 的 整数 部 分 9/2 =4， 而 9.0//2.0=4.0 


2.2.2 ”比较 运算 符 


比较 运算 符 如 表 2-2 所 示 。 


2N. 


表 2-2 比较 运算 符 


例子 e=10b-20) 
@ 一 b) 不 为 tme 
@ = b) 为 ue 
@>b) 不 为 rue 
检查 左 操作 数 的 值 是 否 小 于 右 操作 数 的 值 ， 若 小 于 则 条 件 为 真 。 | (a < 日 为 tme 
检查 左 操作 数 的 值 是 否 大 于 或 等 于 右 操作 数 的 值 ， 若 大 于 等 于 则 
条 件 为 真 

检查 左 操作 数 的 值 是 否 小 于 或 等 于 右 操作 数 的 值 ， 若 小 于 等 于 则 
条 件 为 真 


(a >= b) 不 为 true 


(a <= b) 为 true 


2.2.3 ”赋值 运算 符 


赋值 运算 符 如 表 2-3 所 示 。 
表 2-3 ”赋值 运算 符 


运算 特 示 全 
一 简单 的 赋值 运算 符 ， 赋 值 从 右 侧 操作 数 到 左 侧 操作 数 | c=a+b 相当 于 将 a+b 赋值 给 c 


加 法 赋值 运算 符 ， 左 操作 数 和 右 操作 数 和 的 结果 赋 给 


+= 大 操作 数 c+=a 相当 于 c=c+a 
减 赋值 运算 符 ， 左 操作 数 减 去 右 操作 数 ， 并 将 结果 赋 st 
给 左 操作 数 a 册 
乘法 赋值 运算 符 ， 左 操作 数 与 右 操作 数 的 乘积 赋 给 左 ne 
水 一 ee c* 二 a 相当 于 c=c*a 
了 除法 赋值 运算 符 ， 左 操作 数 除 以 右 操 作 数 的 结果 赋 给 网 
左 操作 数 _ 
模 赋值 运算 符 ， 左 操作 数 与 右 操 作 数 模 的 结果 赋 给 左 
%= 操作 数 c %=a 相 当 于 c=c%a 
指 赋值 运算 符 ， 左 操作 数 的 右 操 作 数 指数 之 值 赋 给 左 
宗 守 一 操作 数 c *+* 二 gq 相当 于 c=c**&a 
地 板 除 ， 左 操作 数 地 板 除 右 操 作 数 ， 将 结果 赋 给 左 操 ee 
//= 作 数 c/=a 相 当 于 c=c/Wa 
【 例 2-2】 各 类 运算 示例 : 
>>> print (1+9) # 加 法 
也 让 
>>> print (1.3-4) # 减法 


13. 


wow 区 》 Python 数据 分 析 基础 


2 
od Ea 
15 

> printtae Sr lss 
330 

> LL 

9 

>>> print (10%3) 

于 

>>> print (5==6) 
False 

>>> print(8 0.=8.0) 
False 

>>> print/(3<37 
False True 
>>> print (4>5, 


3<=3) 


4>=0) 
False True 

> Print J Ills)y 
EA 

>>> print (True and True, 
True False 

>>> print (True or False) 
True 

>>> print (not True) 
False 

二 TWO (SS 2) 

(2 

>3 /2 

eS) 


>>>a 


ll 
E32 
a 


>>>b = 1 
Fy 
>>>print (a) 
2 5 

> 


>>>a 


# 乘法 

# 除法 

# 和 习 方 

# 求 余数 

# 相等 

# 不 相等 

oN 

# > 大 于 ; >= 大 于 等 于 

六 5 tl 51 一 个 元 坟 
True and False) # and， 两 者 都 为 真 才 是 真 
# or， “或 ”运算 ， 其 中 之 一 为 真 即 为 真 
“ 非 ” 运算， 取 反 


# mot， 


# 表示 5 除 以 2， 返 回 了 商 和 余数 


说 明 : 在 Python 3.5 之 前 的 版 本 中 ， 当 两 个 整数 相 除 时 ， 其 结果 取 商 的 整数 部 分 (不 是 
四 舍 五 入 ); 当 除 数 和 被 除数 之 一 或 两 者 都 是 浮 点 数 时 ， 其 结果 才 是 浮 点 数 。 如 计算 5/2 
时 ， 得 到 的 结果 不 是 2.5， 而 是 2。 但 在 Python 3.5 版 本 中 已 经 做 了 优化 ， 其 结果 显示 为 
2.$S。 若 是 3.5 之 前 的 版 本 ， 也 可 以 用 除法 模块 ”future_ 中 的 division， 如 下 所 示 : 


>>> from future . import division 


SA 
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>>> round(1.234567,2) 
1 .23 
>>> 


但 是 也 有 例外 : 

> TOUNG(Z 352 

2 ,23 

>>> 

结果 为 什么 不 是 2.24? 因为 这 是 由 浮 点 数 引 起 的 精确 度 问 题 ， 后 续 章 节 将 详细 介绍 
decimal 模块 对 此 类 问题 的 处 理 方法 (ffom decimal import Decimal): 


>>> from decimal import Decimal 

>>> from decimal import localcontext 
>>> a = Decimal('1.3') 

>>> Db) = "Decimal (Een) 

> EL (a /|b) 
0.7647058823529411764705882353 


>>> with localcontext() as ctx: 
ctx.prec = 3 
Brint (a /BD) 


O755 

>>> 

思考 : 为 什么 >>>print(‘IT love i-nuc.com ”* 5) 可 以 正常 执行 ， 而 >>>print(‘IT love i- 
nuc.com ’ 十 5) 却 报错 ? 

运算 类 型 不 一 致 。 在 Python 中 不 能 把 两 个 完全 不 同 的 东西 加 在 一 起 ， 比 如 说 数字 和 文 
本 。 正 是 这 个 原因 ，print('I love i-nuc.com ， + 5) 才 会 报错 。 这 就 像 在 说 “我 的 体重 67 公斤 
加 上 我 的 身高 170cm 是 多 少 ” 一 样 没 有 多 大 意义 ! 不 过 ， 文 本 乘 以 一 个 整数 来 翻 倍 就 具有 
一 定 的 意义 了 ，Pprint('I love i-nuc.com : * 5) 意 思 就 是 将 “I love i-nuc.com ”这 个 字符 串 接 连 输 
出 5 次 。 


2.2.4 ”常量 与 变量 


常量 有 数值 、 字 符 、 逻 辑 真 假 ， 如 12、yy、“12”、true、false。 
变量 是 可 以 给 它 赋 值 的 量 ， 如 a=3。 
变量 只 能 由 数字 、 字 母 和 下 划 线 构成 ， 但 不 能 以 数字 开头 ， 而 且 变 量 区 分 大 小 写 ;， 以 
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下 划 线 开头 的 变量 有 特殊 含义 ， 变 量 名 不 能 含有 空格 和 标点 符号 ， 如 括号 、 引 号 、 逐 号 、 
斜 线 、 反 和 斜 线 、 冒 号 、 句 号 和 问号 ; 在 Python 3.x 中 ， 变 量 也 可 以 是 中 文 。 例 如 : 


>>> 中 国 = "I love you" 
>> LSt 1 [E23 
> ls | 

> a 

[7 

>>3 DIESt 

oe | 


2.2.5 ”字符 串 


字符 串 是 字符 的 序列 。 字 符 串 基本 上 就 是 一 组 单词 。 字 符 串 需 用 单 引 号 (“*) 或 者 双 引 号 
(“”) 括 起 来 。 

(1) 使 用 单 引 号 (): 可 以 用 单 引 号 指示 字符 串 ， 就 如 同 'Quote me on this 这 样 。 所 有 
的 空白 ， 即 空格 和 制 表 符 都 照 原样 保留 。 

(2) 使 用 双 引 号 (3”): 双 引 号 与 单 引号 中 的 字符 串 在 使 用 上 完全 相同 ， 例 如 “What's 
your name?”。 

(3) 使 用 三 引号 0” 或?””0): 利用 三 引号 ， 可 以 指示 一 个 多 行 的 字符 串 。 可 以 在 三 引 
号 中 自由 地 使 用 单 引 号 和 双 引 号 。 

(4) 转 义 符 : 假设 想 要 在 一 个 字符 串 中 包含 一 个 单 引 号 和， 例如 字符 串 What’s your 
name?， 就 不 能 用 ‘What’s your name?’ 来 表示 ， 因 为 这 里 有 三 个 单 引号 ，Python 不 知 从 何 处 
开始 ， 何 处 结束 。 这 时 ， 可 以 通过 转 义 符 来 完成 这 个 任务 ， 用 \* 来 表示 单 引 号 一 一 注意 这 
里 的 反 斜 杜 。 可 以 把 字符 串 表示 为 “What\s your name?’。 又 如 : 

>>> s = 'Yes,he doesn\'t' 

>>> print(s, type(s), len(s)) #1len () 函数 用 于 查看 s 的 长 度 

Yes,he doesn't <class 'str'> 14 

>>> 

还 可 以 用 另 一 个 表示 方法 ， 妈 用 双 引 号 ， 以 便 与 字符 串 内 的 单 引 号 区 分 开 ， 即 “What’s 
your name?”。 

类 似 地 ， 要 在 双 引 号 字符 串 中 使 用 双 引 号 时 ， 可 以 借助 于 转 义 符 。 另 外 ， 也 可 以 用 转 
义 符 “\\” 来 指示 反 斜 杜 “\”。 

值得 注意 的 是 ， 在 一 个 字符 串 中 ， 行 末 单 独 一 个 反 斜 杠 表 示 字 符 串 在 下 一 行 继 续 ， 而 
不 是 开始 一 个 新 的 行 。 例 如 : 
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"This is the first sentence.\ 


This is the second sentence." 


等 价 于 : 

"This is the first sentence. This is the second sentence." 

转 义 字符 的 种 类 如 表 2-4 所 示 。 

表 2-4 和 转 义 字符 及 其 描述 
转 义 字符 描 述 

\( 在 行 尾 时 ) 续 行 符 
\ 反 斜 杠 符号 
Ww 单 引号 
双 引 号 
\a 响 铃 
\b 退 格 (BackSpace) 
\e 转 义 
\000 学 
\n 换行 
\v 纵向 制 表 符 
At 横向 制 表 符 
回 车 
\f 换 页 
\oyy 八进制 数 yy 代表 的 字符 ， 例 如 ，\o12 代表 换行 
\xyy 十 进 制 数 yy 代表 的 字符 ， 例 如 ，\x0a 代表 换行 
\other 其 他 的 字符 以 普通 格式 输出 


(5) 自然 字符 串 : 如 果 想 要 指示 某 些 不 需要 如 转 义 符 那 样 特别 处 理 的 字符 串 ， 则 需要 
指定 一 个 自然 字符 串 。 自 然 字 符 串 通过 在 字符 串 前 添加 前 级 r 或 R 来 指定 。 

例如 a=r“Newlines are indicated by \n”*"， 读 者 可 自行 测试 。 

又 如 : 


>>> print('C:\some\name') # \n 表示 成 了 换行 符 
C:\some 

ame 

>>> print(r'C:\some\name') 

C:\some\name 

> 


(6) Unicode 字符 串 : Unicode 是 书写 国际 文本 的 标准 方法 。 如 果 想 要 用 其 他 语言 ， 如 
Pe, 
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北 印 度 语 或 阿拉 伯 语 写 文 本 ， 那 么 就 需要 有 一 个 文 持 Unicode 的 编辑 器 。 类 似 地 ，Python 
允许 处 理 Unicode 文本 只 需要 在 字符 串 前 加 上 前 级 或 U。 例 如 ，u'‘This is a Unicode 
string.”。 

(7) 字符 串 是 不 可 变 的 :这 意味 着 一 旦 创造 了 一 个 字符 串 ， 就 不 能 再 改变 它 。 昌 然 这 
看 起 来 像 是 一 件 坏事 ， 但 实际 上 它 不 是 。 我 们 将 会 在 后 面 的 程序 中 看 到 为 什么 说 它 不 是 一 
个 缺点 。 

字符 串 可 以 通过 “+” 运 算 符 串 连 在 一 起 ， 或 者 用 “* ”运算 符 重复 。 例 如 : 

> EL Ste Rn mn 


string mymymy 
>>> 


2.2.6 ”字符 串 索引 与 切片 


定义 字符 串 变 量 并 赋值 的 例子 如 下 : 


>>> str = "Hello My friend" 

字符 串 是 一 个 整体 。 如 果 想 直接 修改 字符 串 ， 是 不 可 能 做 到 的 ， 但 我 们 能 够 读 出 字符 
串 中 的 某 一 部 分 。 

1. 字符 串 的 索引 


给 出 一 个 字符 串 ， 可 输出 其 任意 一 个 字符 。Python 中 的 字符 串 有 两 种 索引 方式 : 第 一 
种 是 从 左 往 右 ， 从 0 开始 依次 增加 ; 第 二 种 是 从 右 往 左 ， 从 -1 开始 依次 减少 。 例 如 : 


>>> word = 'Python' 

>>> print (word[0]) 

县 

>>2> PPELINt(wOrd[l=Lle WOrdl 6]) 
Tp 

> 


2. 字符 串 的 切片 

切片 (也 叫 分 片 ) 就 是 从 给 定 的 字符 串 中 分 离 出 部 分 内 容 。 

(1) Python 中 用 冒号 分 隔 两 个 索引 ， 形 式 为 “变量 [ 头 下 标 : 尾 下 标 ]”， 截 取 的 范围 是 
左 闭 右 开 ， 即 不 包含 尾 下 标的 字符 ， 并 且 两 个 索引 都 可 以 省 略 。 例 如 : 


>>> str = "Hello My friend" 
>>> prt Catrblsd 
ell 
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Hello My 
> 
My friend 

2 > PINE(Seell) 
Hello My friend 
> 
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(2) 切片 的 扩展 形式 为 “str[IJK]”， 从 工 到 二 1， 每 隔 K 个 元 素 索 引 一 次 ， 如 果 K 


为 负数 ， 就 是 按 从 右 往 左 索 引 。 例 如 : 


"Hello My friend" 
> rmt (St 

loM 

> Prarnb (osteo El 

llo M 

>>> 


(3) 字符 串 包含 判断 操作 符 为 in，not in。 例 如 : 


"Hello My friend" 
ed 0 eh 


>>> str = 


>>> str = 
True 

>>> PShe" not Tn St 
True 

> Erno) 

4 

>>> 


# 字 符 串 模块 提供 的 查找 方法 


(4) ord 函数 将 字符 转化 为 对 应 的 ASCII 码 值 ， 而 chr 函数 将 数字 转化 为 字符 。 例 如 : 


>2> print(ord( a )) 
97 
>>> Drint(onr(9) 


a 


>>> 

(5) 处 理 字符 串 的 内 置 函 数 : 

len(str) # 串 长 度 

max('abcxyz') # 寻 找 字 符 串 中 最 大 的 字符 
min('abcxyz') # 寻 找 字 符 串 中 最 小 的 字符 


(6) string 的 转换 : 


Tt ebry 


# 变 成 整 型 ， 如 int ("12") 的 结果 为 12， 是 数值 型 
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string 模块 还 提供 了 很 多 方法 ， 例 如 : 


.find(substring，[statrt [,end]]) # 可 指 范围 查找 子 串 ， 返 回 索引 值 ， 否 则 返回 -1 
“enouDstring Lstarb ena) # 反 向 查找 

.index (substring, [start [,end]]) # 同 find， 只 是 找 不 到 会 产生 ValueError 异常 
.rindex (substring, [start [,end]])# 同 上 反 向 查找 

.count (substring, [start [,end]]) # 返 回 找到 子 串 的 个 数 

.capitalize() # 首 字母 大 写 

.JoOwer () # 转 小 写 

.Upper () # 转 大 写 

.swapcase () # 大 小 写 互 换 

.split()  # 将 string 转 1ist， 默 认 以 空格 切 分 ， 也 可 以 指定 字符 切 分 


RANGE 


2.2.7 输入 和 输出 


1. print 
print 是 一 个 常用 函数 ， 其 功能 就 是 输出 插 号 中 的 字符 串 (在 Python 2.x 中 ，print 格式 


写成 print ‘Hello World!’)。 


print 可 以 有 多 个 输出 ， 以 逗号 分 隔 。 例 如 : 


>>> a=10 

>>> print (a,type (a)) 
LO <elLass "Thnt ”> 
>>> 


车 要 将 多 个 结果 打印 在 一 行 ， 并 以 逗号 分 隔 ， 可 以 在 print 中 添加 end=',*"， 例 如 


print(test_list[i], end=“,”)， 后 面 将 会 用 到 。 


2. input 
input 函数 将 用 户 输入 的 内 容 作为 字符 串 的 形式 返回 ， 就 算 输 入 的 是 数字 ， 但 返回 的 


“数字 ”的 类 型 也 是 字符 串 型 。 
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【 例 2-3】input 输入 : 


> a mInputtuinpute HW 
Tnniits 2 

>>> a 

1121 

>>> type (a) 

SLs tm 

>>> b=input (' 请 您 输入 :') 
请 您 输入 :abc 
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de 

AD 

>>> 七 YPe (b) 

to > 

>>> c = int (input ("请 您 输入 数字 : ")) 

请 您 输入 数字 : 231 

>>> 七 YPe (c) 

olasa "into> 

>>> d=int (input (' 请 输入 字符 : ')) 

请 输入 字符 : aca 

Traceback (most recent call last): 

File "<pyshell#10>", line 1, in <module> 

d=int (input (' 请 输入 字符 : ') ) 

ValueError: invalid literal for int() with base 10: 'acd' 

>>> 


如 果 要 想 获取 数字 ， 可 以 使 用 int 函数 将 接收 进来 的 “数字 ”字符 转化 为 数字 。 例 如 : 


ro 


但 需要 注意 ， 不 可 以 输入 字符 型 ， 如 输入 字母 则 会 报错 ， 如 例 2-3 最 后 输入 的 acd。 
2.2.8 ”原始 字符 串 


先 看 个 例子 : 


>>> d="c: \news" 
> 
'c:\news' 


>>> print (qd) 


执行 print(d) 语 名 时， 出现 的 不 是 c:mews， 而 是 把 其 中 的 \n 看 成 了 换行 符 。 

为 了 避免 在 print 的 时 候 出 现 上 述 的 歧义 现象 ， 可 以 引入 转 义 符 ， 即 d=“c:\news”， 但 
知 和 输出 的 路 径 较 长 ， 为 了 方便 起 见 ， 可 以 在 引号 的 前 面 加 上 r， 表 示 T 后 面 引 号 里 的 东西 按 
原样 输出 。 上 面 的 例子 可 改写 如 下 : 


>>> d=r"c:\news" 
> 

'c:\\news' 

>>> Drint(d) 


c:\news 


or, 
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>>> 


2.2.9 range 


Python 中 的 内 置 函 数 range(n) 表 示 一 个 从 0 到 n-1 的 长 度 为 n 的 序列 。 
当然 ， 可 以 自 定 义 我 们 需要 的 起 始点 和 结束 点 ， 例 如 : 

>>> range (1,5) # 代 表 从 1 到 5 (不 包含 5),， 即 1、2、3、4 

>>> 

range(n) 函 数 还 可 以 定义 步 长 。 

下 面 我 们 定义 一 个 从 1 开始 到 30 结束 ， 步 长 为 3 的 列表 : 

>>> range (1,30,3) 

rangel(l,. 30,. 3) 

>>> list (range (1，30，3)) # 这 里 用 1ist 列表 把 值 显示 出 来 ，1ist 在 后 面 介绍 
[OP To TG MoO 22 0020 

ee 

默认 情况 下 ，range0 的 起 始 值 是 0。 

在 numpy 模块 中 ，arange0 类 似 于 range 函数 ， 调 用 时 须 导 入 该 模块 : 


Import numpy 


numpy.arange (n) 


2.2.10 ”元 组 、 列 表 、 字 典 、 集 合 


1. tuple 
元 组 (tuple) 类 似 于 向 量 ， 元 组 的 元 素 不 能 修改 。 元 组 写 在 小 括号 里 ， 元 素 之 间 用 逗号 


隔 开 ， 和 向 量 的 写法 一 致 。 元 组 中 的 元 素 类 型 也 可 以 不 相同 ， 示 例如 下 : 


> > a ol OLd PhVelos rr "mat ) 

>>> print(a, type(a), len (a)) 

(1991, 2044 "Phvsics", "mathy <elass “tuple 4 
3>> 


元 组 与 字符 串 类 似 ， 可 以 被 索引 且 下 标 索 引 从 0 开始 ， 也 可 以 进行 截取 切片 (其 实 ， 可 


以 把 字符 串 看 作 一 种 特殊 的 元 组 )。 例 如 : 


ja 


6 
>>> Print(tuplol thall:Sl) 
TCR SS 
SS> Cano TT # 修改 元 组 元 素 的 操作 是 非法 的 
Traceback (most recent call last): 
File "<pyshell#21>", line 1, in <module> 
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tup[0] = 11 


TypeError: ‘tuple’' object does not support item assignment 
>>> 


虽然 tuple 的 元 素 不 可 改变 ， 但 它 可 以 包含 可 变 的 对 象 ， 比 如 list 列表 。 对 于 构造 包含 
0 个 或 1 个 元 素 的 tuple 是 个 特殊 的 问题 ， 所 以 有 一 些 额外 的 语法 规则 : 


>>> tupl = () ”<# 空 元 组 
>>> tupl 


>>> tup2 = (20,) # 创 建 只 有 一 个 元 素 的 元 组 ， 该 元 素 后 面 的 逗号 不 可 忽略 
> tAUB2 

(20,) 

>>> tup3 = (20) 

>>> tup3 

20 


Si 


和 注意 : ”元 组 (2) 其 实 就 是 数字 2， 仍 然 是 整 型 ， 但 (2,) 就 是 元 组 。 元 组 是 不 可 添加 和 
删除 的 。 另 外 ， 元 组 也 支持 用 “+?” 操 作 符 。 例 如 : 

>>> Bl Elp2 = (Tl 2 3 (4d 5 6) 

>>> print (tupl+tup2) 

C6 

>>> 

元 组 由 不 同 的 元 素 组 成 ， 每 个 元 素 可 以 存储 不 同类 型 的 数据 ， 而 元 组 中 的 元 素 则 代表 
不 同 的 数据 项 。 元 组 的 创建 可 以 不 定 长 ， 但 创建 后 和 字符 串 一 样 ， 都 是 不 可 修改 的 。 

例如 : 


>>> user=(1,2,3) 
>>> user[0]=2 


Traceback (most recent call last): 
File “<pyshell5>", line 1, in <module> 
user[0]=2 
TypeError: "tuple' object does not support item assignment 


>>> 

元 组 的 添加 : 

> Fb 

>>> user = (user,'05') # 注 意 结果 与 两 元 组 用 “+” 操 作 符 结 果 的 比较 
>>> user 


0 
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元 组 的 访问 : 

六 OO 

>>>user[0] 

vo, 

>>>user[2] 

玉江 

>>> 

元 组 包含 以 下 内 置 函数 。 

@ len(tuple): 计算 元 组 元 素 的 个 数 。 

@ max(tuple): 返回 元 组 中 元 素 的 最 大 值 。 

@ min(tuple): 返回 元 组 中 元 素 的 最 小 值 。 

@ tupledisb: 将 列表 转换 为 元 组 (list 在 后 面 介绍 )。 
和 注意 :cmp0O 函 数 在 Python 3.5 中 已 经 被 删除 。 

二 元 元 组 (二 维 ) 的 访问 : 

>>>userl1 = (1,2,3) 

>>>user2 = (4,5,6) 

>>>user = (userl,user2) 


>>>print {userllll2]) 
6 


元 组 的 解 包 : 


>>> Moor sm (ld 
>>> a,b,c = user # 变 量 个 数 要 等 于 元 组 的 长 度 


>>> a 


2. list 


列表 (lisb 用 方 括号 [] 标 识 ， 其 元 素 写 在 方 括号 之 间 ， 并 用 逗号 分 隔 开 。 列 表 中 元 素 的 
类 型 可 以 不 相同 ， 例 如 a = [“T“ you” he”,5]。 
列表 的 索引 同 字符 串 和 元 组 一 样 ， 如 图 2-1 所 示 。 
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list [ . 和 ” . 和 和 ] 
index 


2-1 list 索引 图 


列表 array = [1, 2, 5, 3, 6, 8, 4] 对 应 的 元 素 1=array[0]= array[-7]， 以 此 类 推 。 
从 0 开始 ，0 表示 第 一 个 元 素 索 引 ，-1 表示 最 后 一 个 元 素 索 引 ，-len(array) 表 示 第 一 个 


元 素 的 索引 ，len(array)-1 表示 最 后 一 个 元 素 的 索引 。 


len(list) 表 示 取 list 的 元 素数 量 ， 也 即 list 的 长 度 。 

创建 连续 的 list: 

>>> list (range (1,5)) 

[Lr 2 SE 4 

>>> list(range (1，10，2)) +# 步 长 为 2， 从 1 开始 ， 每 隔 2 取 一 个 数 
DL O37 77 

>>> 


和 字符 串 一 样 ， 列 表 同 样 可 以 被 索引 和 切片 ， 列 表 被 切片 后 ， 返 回 一 个 包含 所 需 元 素 


的 新 列表 。 例 如 : 


> | 二 bl yOu he 
| 
YOU ey 


>>> 安 [ 二 |] 

'you! 

>>> a[l]='she' 

>>> a 

[WI Veter Tre “DY 
> 


从 上 面 的 语句 可 以 看 出 ， 列 表 是 可 以 改变 的 ，a[1] 由 原来 的 ‘you* 变 成 了 “she’。 
列表 还 支持 串联 操作 ， 使 用 “+” 操 作 符 : 


> > 4 3] 
>>] 

by Zn Br dy BE By Ty B89 
>>> 


使 用 a[n:n]=[q] 可 以 在 列表 a 中 的 n 位 置 插 入 一 个 值 q。 例 如 : 


> | 
>>> a[2:2]=[3]  # 在 列表 中 的 某 位 置 插入 一 个 值 
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a 

CD 5 

>>> len (a) # 测 试 列表 的 长 度 ( 含 元 素 的 个 数 ) 
5 

>>> 


使 用 list(str) 可 以 将 字符 串 转 化 为 列表 。 例 如 : 

>>> word="'hello' 

>>> 1list (word)  ”# 将 字符 串 转化 为 列表 

Ee Pe 9 J | 

2 

下 面 介绍 list 的 有 关 方 法 。 

(1) list 的 元 素 追 加 。 

GD L.append(var): 追加 元 素 ， 追 加 的 元 素 可 以 是 一 个 list、 数 、 字 符 串 等 。 


例如 : 

| 

>>> q=[8,9] 

>>> w.append(q)  ”# 不 能 写成 w=w.append (9q) 
>>> WwW 

[E20 9 

>>> 


和 RE 注意 : append 方法 不 能 返回 值 ， 所 以 像 w=w.append(q) 这 样 写 是 错误 的 。 


@ L.extend(list): 合并 两 个 列表 ， 即 把 list 追加 到 工 列表 中 。 不 能 追加 单个 元 素 。 


例如 : 
> 
>>> q=[8,9] 

>>> w.extend (gq) 
>>> w 
[091 
>>> 


3 天 注意 : ”append 和 extend 的 区 别 是 : append 是 对 列表 添加 元 素 ，extent 是 合并 两 个 


列表 。 
(83) L.insert(index,var): 在 index 位 置 插入 var 元 素 。 
例如 : 
>>>a = ["I","you","he",5] 
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>>>a.insert (1,'love') 
>>>a 

EOE Lov AoE = 二 全 人 | 
>>> 


(2) 从 list 删除 元 素 。 
使 用 L.pop(index) 从 list 删除 元 素 ， 返 回 被 删除 的 index 位 置 元素 ， 只 能 删 一 个 元 素 ， 
并 从 list 中 删除 这 个 元 素 。 默 认 删 除 最 后 一 个 元 素 。 例 如 : 


>>>a = [TI "you" hel 
>>>a .pop (2) 

De 

>>>a 

| 

>>>a .pop () 

5 

>>>a 

GOT Yom 

>>> 


使 用 del L[index] 删 除 指定 索引 的 元 素 。 例 如 : 


>>20 = [VIM "you "hesSl 
>>>del a[3] 
>>>a 
Cr vou pr hen 
> 


使 用 del LIm:n] 删 除 指定 索引 范围 的 元 素 。 例 如 : 


> 

>>> del all:3] # 删 除 1ist 中 索引 为 1、2 的 值 
Pr 2 

Bia 

> 


使 用 L.remove(var) 删 除 第 一 次 出 现 的 var 元 素 。 例 如 : 


> Ws 
>>>1i.remove (4) 

> 

lr or 3 Sn dr 0] 

>>> 


另外 ， 还 可 以 使 用 切片 的 方法 来 删除 。 例 如 : 
es le AGO 


er, 
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>>>1i = 1i[:-1] 


>>>11i 

[1, 2, 3, 4, 5] 

>>> 

(3) list 操作 符 (:、+、*)。 例 如 : 

"SS A = es eo to ds a 

>>> a[l:] # 片 段 操 作 符 ， 用 于 子 1ist 的 提取 
['you', 'he', 5] 

> i se # 同 extend () 


LDLy 2 37 4] 
dl 
[2 2 By 2] 
>>> 


(4) list 的 索引 冒号 用 法 。 
冒号 前 后 表示 索引 切片 的 起 止 位 置 。 例 如 : 


> aREAaV = | 2 3 3 | 

>>> array[0:] # 列 出 索引 0 以 后 的 
Bo] 

>>> array[1:] # 列 出 索引 1 以 后 的 
| 

>>> array[:-1] # 列 出 索引 -1 之 前 的 
| 

>>> array[3:-3] # 列 出 索引 3 到 索引 -3 之 间 的 
[3] 

>>> 


两 个 冒号 [::] 表 示 取 全 部 索引 。 例 如 : 


>>> "arrTayv = [ly 27 SOALS a 

>>> array[::2] # 表 示 步 长 为 2 取 元 素 ， 即 隔 一 个 元 素 取 一 个 元 素 
ELP 9 0 49 

>>2 rravl2::)] 

| 

>>> array[::3] 

[34] 

>>> ‘arrayle 4 

[1, 6] 


双 冒 号 [::] 还 可 以 形成 reverse 函数 的 效果 。 例 如 : 


> Cs st 
>>> qrray[ = 
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| 
| 
| 

>>> 


(5) list 排序 。 

对 列表 进行 排序 可 以 使 用 sort0 和 sorted0 函 数 。 

GD ”sort0: 此 函数 对 列表 排序 时 ， 会 改变 列表 本 身 ， 从 而 让 其 中 的 元 素 按 一 定 的 顺序 
排列 。 例 如 : 


> a [ororndr9 ll 

>>> a sort() 

>>> a 

Ely ri Sr MD SB LS 

>>> sort (a) 

Traceback (most recent call last): 

File "<pyshell#3>", line 1, in <module> 

sort (a) 

NameError: name 'sort' is not defined 


>>> help (a) 


SOrt ty 
L.sort (key=None, reverse=False) -> None -- stable sort *IN PLACE* 
>>> 


从 help 可 知 ，sort0 默 认 按 从 小 到 大 排序 ， 可 以 添加 参数 reverse=True， 变 成 从 大 到 小 
排列 。 例 如 : 


| 
>>> e.sort (reverse=True) 
>>> e 

| 


和 RE 注意 : sort0 函 数 使 用 的 是 “.” 方 法 ， 即 a.sort()， 使 用 sort(a) 就 会 报错 。sortO 函 数 
会 改变 原来 的 列表 ， 且 函数 返回 值 为 室 ， 即 None。 因 此 ， 如 果 需 要 一 个 已 
排 好 序 的 列表 副本 ， 同 时 又 要 保留 原 有 列表 不 被 改变 ， 就 不 能 直接 简单 地 使 
用 sortO 函 数 ( 为 了 实现 上 述 功 能 ， 可 以 使 用 sorted(a) 方 法 )。 例 如 : 
> ea ee a 
S35> 6 = LD.S0OFt() # 返 回 空 值 None 


>>> Print(e) 


None 


Tee, 
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>>> 工 
国王 
>>> 


@ sorted0: 此 函数 对 列表 进行 排序 时 ， 直 接 获 取 列 表 排 序 的 一 个 副本 。sorted0 函 数 
可 以 用 于 任何 可 途 代 的 对 象 。 例 如 : 


| 
>>> sorted (a) 

[Ey 2 Sy My :Sy By 9] 
>>> a 


V9] 


# 对 a 排序 后 产生 一 个 新 的 列表 


@ a.sort() 和 sorted(a) 有 区 别 : sorted(a) 产 生 的 是 一 个 新 列表 ， 不 改变 原 列表 
a; 而 a.sort() 是 对 列表 a 直接 排序 ， 破 坏 了 原 列 表 。@ sorted() 既 产生 新 的 排 
序列 表 又 保持 原 列 表 不 被 改变 ， 这 个 功能 也 可 以 通过 找 贝 副本 的 方法 来 实 
现 : 先 获 取 列 表 a 的 一 个 副本 b， 然 后 再 对 b 进行 b.sort() 排 序 。 
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为 了 理解 得 更 深刻 ， 我 们 将 对 a 和 上 b 的 存储 地 址 进行 查验 ， 代 码 如 下 : 


之 > 二 ES 

S333 idl(a) # 查 看 a 的 存储 地 址 

55494776 

>>> b=al[:] # 拷 贝 一 个 副本 b 

> 1 

[3 Zr D4 9 9 

S27 7d) # 查 验 b 的 存储 地 址 

55486264 # 发 现 b 和 a 地 址 不 一 致 ， 说 明 复 制 了 一 份 
S33 G=a # 再 复制 一 个 副本 c， 比 较 c 和 a 的 存储 地 址 
>>> c 


[3， 2r 5v 4， 


>>> id(c) # 查 验 c 的 存储 地 址 
55494776 # 发 现 c 的 地 址 跟 a 一 致 ， 说 明 c 是 a 的 一 个 标签 ， 不 是 真 复制 
>>> b.sort1() # 对 b 进行 排序 

> 6 

| so | 

SSS #b 排序 后 对 a 没有 影响 
| 所 三 昌 | 

>>> CISOLE() # 对 c 进行 排序 

>>> c 

[29] 

>>> a #c 排序 后 对 a 有 影响 


制 |， 


响 。 
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blr ay Se dr Sr Br 99 
>>> 


从 上 面 代 码 显 示 的 存储 地 址 知道 ，c 仅仅 是 a 的 一 个 标签 ， 并 不 是 真正 意义 上 的 复 
不 论 是 a 改变 ， 还 是 改变 ， 其 实 改变 的 都 是 同一 个 地 址 里 的 内 容 ， 所 以 互相 有 影 
只 有 b 才 是 真正 意义 上 的 拷贝 ， 后 面 我 们 还 会 遇 到 “ 深 拷贝 ”。 再 如 : 


> 人 | 
>>> y=x[:] 

> Ot 

> DELNE(RY) 

[Edy G7 22717 77 9 49 
>>> print(y) 

[le 2 dy OF he :0] 
> 


说 明 : ”调用 x[:] 得 到 的 是 包含 了 x 所 有 元 素 的 切片 ， 这 是 一 种 很 有 效率 的 复制 整个 


列表 的 方法 。 通 过 y=x 简单 地 将 x 赋值 给 y， 仅 仅 是 给 y“ 贴 ”了 一 个 指向 
x 的 标签 ， 最 终 x 和 yy 都 指向 了 同一 个 列表 .。 


(8) ”reverse(): 此 函数 用 来 进行 倒序 排列 。 例 如 : 


-| 
>>> e.reverse() 

>>> € 

| 

>>> 


或 者 : 
>>> reversed([1,2,'L']) # 这 样 返 回 的 是 一 个 迭代 器 ， 可 以 用 1ist 转化 为 列表 


<Iist reverseiterator Object at OQx02C921B0> 
>s>> Tist(treversed(lEr2y Sh]))}) 

[2 

>>> 


或 者 : 


>>> w=[1,2,'L"'] 
> 
bE 2 

>>> 


对 字符 串 也 可 以 同样 反 转 。 


3. 
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(6) 其 他 方法 。 

@ LL.count(var): 返回 var 元 素 在 列表 中 出 现 的 个 数 。 

@ L.index(var): 返回 第 一 个 var 元 素 的 位 置 ， 无 则 抛 出 异常 。 
列表 对 象 常 用 的 方法 汇总 如 表 2-5 所 示 。 


list.append(x) 
list.extend(L) 


list.insert(i, x) 
list.remove(x) 
list.pop(i) 


list.index(x) 
list.count(x) 
list.sort() 


list.reverse() 


3. dict 


表 2-5 list 对象 常用 的 方法 


把 一 个 元 素 添 加 到 列表 的 结尾 ， 相 当 于 allen(a):] = [x] 

将 一 个 给 定 列表 中 的 所 有 元 素 都 添加 到 另 一 个 列表 中 ， 相 当 于 a[len(a):] = 工 

在 指定 的 索引 位 置 i 插入 一 个 元 素 x。 如 a.insert(0，x) 会 插入 到 整个 列表 之 前 ， 而 
a.insert(len(a), x) 相 当 于 a.append(x) 

删除 列表 中 第 一 次 出 现 的 值 为 x 的 元 素 。 如 果 没 有 这 样 的 元 素 ， 就 会 返回 一 个 错误 
从 列表 的 指定 位 置 删除 元 素 ， 并 将 其 返回 。 如 果 没 有 指定 索引 ，a.pop0 返 回 最 后 一 
个 元 素 ， 该 元 素 随即 从 列表 中 被 删除 

返回 列表 中 第 一 个 值 为 x 的 索引 。 如 果 没 有 匹配 的 元 素 ， 就 会 返回 一 个 错误 

返回 x 在 列表 中 出 现 的 次 数 ( 可 以 用 于 做 列表 中 的 查 重 ) 

对 列表 中 的 元 素 就 地 进行 排序 (改变 了 原 列表 ) 

就 地 倒 排 列表 中 的 元 素 (改变 了 原 列表 ) 


先 来 看 列表 存储 通信 录 。 
【 例 2-4】 通 信 录 的 存储 : 


>>> name=["Ben","Jone", "Jhon", "Jerry","Anny", "IVvy", "Jan", "Wong"] 
>>> tel=[6601,6602,6603,6604,6605,6606,6607,6608] 


这 里 通信 录 存 储 在 两 个 list 中 (一 个 list 是 姓名 ， 一 个 list 是 对 应 的 手机 号 )， 但 是 要 查 
阅 某 个 人 的 电话 号 码 ， 显 得 很 不 方便 。 

为 了 便于 查阅 ， 在 Python 中 有 另外 一 种 存储 方式 : 字典 。 

字典 是 一 种 映射 类 型 (mapping type)， 它 是 一 个 无 序 的 “ 键 : 值 ” 对 集合 。 每 一 个 元 素 
都 是 pair， 包 含 关 键 字 key、value 两 部 分 。 

key 是 Integer 或 string 类 型 ，value 是 任意 类 型 。 即 : 


{key: value} 


关键 字 (key) 必 须 使 用 不 可 变 类 型 ， 在 同一 个 字典 中 ， 关 键 字 必须 互 不 相同 。 例 如 : 


Sc = 0 # 创 建 一 个 空 字典 
>>> dic tel = {'Jack':1557，'Tom':1320，'Rose':1886} # 创 建 一 个 字典 
>>> print (dic tel) # 打 印字 典 
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{'Tom': 1320, 'Rose': 1886, 'Jack': 1557} 

>>> 

所 以 例 2-4 也 可 以 用 字典 来 存储 。 下 面 用 遍历 的 方法 来 操作 (遍历 将 在 后 面 介 绍 )， 其 
原理 是 : 每 次 从 name 中 取 一 个 姓名 ， 记 为 n1， 再 从 tel 中 取 对 应 的 号 码 ， 记 为 tL， 再 把 
nl 和 tl 组 成 键 值 对 n1:t1， 作 为 字典 Tellbook 中 的 一 个 元 素 ， 如 此 循环 ， 就 全 部 构成 了 字 
典 的 元 素 。 

【 例 2-5】 列 表 转 成 字典 : 


>>> Tiame=[ "Ben","Jone", "Jhon"y," "Jerry", Anny"y "lvy"y, "Jan", "Wong”™] 
>>> tel=[6601,6602,6603,6604,6605,6606,6607,6608] 
>>> Tellbook={} # 创 建 一 个 空 字 典 
>>> for i in range(len (name)): 
di="{}".format (name [i]) # 从 name 中 取 一 个 姓名 


ad2= "tormat(t el # 从 tel 中 取 一 个 电话 

Tellbook[d1]=d2 # 再 把 d2 赋值 给 字典 Tellbook 的 al 键 
>>> print (Tellbook) 
{'Jan': '6607', 'Ben': '6601', ‘'Ivy': '6606', 'Anny': '6605', 
'Wong': '6608', 'Jhon': '6603', 'Jone': '6602', 'Jerry': '6604')} 
>>> 


(1) 字典 的 增 、 删 、 改 、 查 。 
以 下 为 字典 的 一 些 常用 操作 方法 示例 : 


Tellbook['Wang'] = 3 # 给 键 赋值 ， 若 键 不 存在 ， 则 直接 创建 此 键 
del Tellbook['Wong'] # 删 除 一 个 键 值 对 

Tellbook['Ben'] # 通 过 key 查询 对 应 的 值 

list (Tellbook.keys ()) # 返 回 所 有 key 组 成 的 1ist 
list(Tellbook.values () ) # 返 回 所 有 value 组 成 的 1]ist 

sorted (Tellbook.keys ()) # 按 key 对 字典 排序 

'Ben' in Tellbook # 成 员 测 试 

'Mary' not in Tellbook # 成 员 测 试 


可 以 用 构造 函数 dict0 直 接 从 键 值 对 构建 字典 ， 例 如 : 


人 
{gqukdo's M4427 “Jaeck', 4098, SaDe A4393 

>>> dict (sape=4139, guido=4127, jack=4098) 

tqardo al2 /lr "Tac A4098 Moapers dl39} 

> 


字典 有 .items 方法 : 将 字典 里 的 元 素 ( 一 个 键 值 对 ) 转 化 为 元 组 ， 作 为 列表 的 一 个 元 素 。 
例如 : 


/33\. 


mm Python 数据 分 析 基 础 


a4. 


eg 

>>> t= d.items () 

>>> DEIiNnt(t) 

iocteitems (CG OL A [ol SN (ar yl) 
>>> list(t) 

ER 0 ee 

>>> 


当然 ， 上 面 的 过 程 是 可 道 的 ， 即 元 组 列表 可 以 初始 化 成 字典 : 


te 0 a 0 oS es 
>>> d=dict (七 ) 

>>> DETR (Cd) 

A 于 1， 


六 

使 用 update 函数 可 以 合并 两 个 字典 : 

>>> dict = {'Name': ‘'Zara', 'Age': 7} 
so 

>>> dict.update (dict2) 

>>> dict 

{'Age': 7, 'Sex': 'female', '‘'Name': 'Zara'} 
> 

用 tuple 作为 键 可 以 创建 字典 : 

>>> seq = ('name', ‘age', 'sex') 


>>> dict = dict.fromkeys (seq) # 给 字典 key 的 赋值 来 自 seq 

>>> dict # 因 为 仅 有 kev， 没 有 value， 所 以 显示 键 值 为 空 None 

{'sex': None ‘age': Noney "name"': None} 

>>> dict = dict.fromkeys (seq，10) # 给 字典 键 值 对 赋值 ， 这 里 假设 都 贱 10 
>>> .dict 

{Sexv ee TO “dge"s TU; namews 10 

>>> 


字典 有 下 列 “.” 方 法 : 


D.get (key, 0) # 同 dict [key] ， 此 处 参数 为 0 (也 可 以 是 其 他 的 ， 如 none)， 
# 表 示 字 典 D 中 车 没有 key 键 则 返回 指定 的 值 0 


D.keys () # 返 回 字 典 键 的 列表 

D.values () # 返 回 字 典 值 的 列表 

D.items () # 将 字典 转化 为 元 组 作为 元 素 的 一 个 列表 

D.update (dict2) # 合 并 字典 ， 将 dict2 增加 到 当前 的 字典 中 

D.pop (key) # 从 字典 中 删除 指定 的 键 值 对 ， 键 名 这 个 参数 必须 有 
D.popitem() # 没 有 参数 则 从 字典 中 随机 删除 一 个 键 值 对 。 已 空 则 抛 出 异常 
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D.clear () # 清 空 字 典 ， 不 同 于 ael dict 是 删除 字典 

D.copy () # 找 贝 字 典 

Dictl=dict.copy () # 克 隆 ， 即 另 一 个 浅 找 贝 ， 深 拷贝 则 是 deepcopy 
示例 如 下 : 


Pa 

>>> dict.get('sex'，'None') }# 若 没有 sex 键 ， 则 返回 指定 的 None 

10 

>>> dict.keys() # 要 想 获 取 键 名 列表 ， 直 接 1ist (dict.keys() ) 即 可 
dict keys(E sex', age', 7 name 

>>> dict.items () # 要 想 获取 键 值 列表 ， 直 接 tuple (dict .keys() ) 即 可 
dict items([('sex', 10), ('age’, 10), ('name"', 10)]) 

>>> dict.pop('sex') # 删 除 sex 键 值 对 

10 

>>> Lct 

tagerv TO name™ TO 

>>> dict['sex']=10 # 增 加 键 值 对 sex: 10 

> 

{eex a LO Vage™, L090r Namew LO 

>>> dict.popitem() # 随 机 删除 一 个 键 值 对 

(Se LO 

>>> QiLct 

(Ge L103 name L103 

>>> dictl=dict.copy() # 复 制 ( 浅 拷贝 ) 一 个 字典 ， 浅 找 贝 只 对 简单 类 型 拷贝 
> > Gel 

{age es TO "name™ 2 10% 

>>> dict.clear() # 清 空 字典 ， 不 是 删除 字典 ， 即 得 到 一 个 空 字 典 

>>> dict #dict 已 经 变 成 了 一 个 空 字 典 

{} 

>>> import copy  # 导 入 copy 函数 (或 者 是 模块 ) 

>>> dict=copy.deepcopy (dict1l)  # 深 拷贝 , 将 dict1 拷贝 给 di ct 
>>> "EG 

{age ms "LO name 二 6 

>>> 


【 例 2-6】 字 典 内 置 get 方法 的 调用 。 
假设 用 户 在 终端 输入 字符 串 :“1”、“2” 或 “3”， 则 返回 对 应 的 内 容 ， 如 果 输 入 其 他 的 ， 
则 返回 “error”"。 程 序 如 下 : 
>>>Enfo = {it Ze econgd Su hird 
>>>print (info.get (input('input type you number:'),'error')) 


input type you number:2 


second 
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回顾 一 下 D.get(key, None) 的 用 法 : 表示 字典 D 中 知 有 key 这 个 键 ， 则 返回 其 键 值 ， 奉 
没有 key 键 ， 则 返回 指定 的 值 None。 当 然 ， 这 里 的 None 也 可 以 改写 成 D.get(key,“ 哈 蛤 ， 

具体 程序 如 下 : 

Te el MEd Or 

>>>print (info.get (input ('input type you number:'),' 哈 蛤 ， 别 有 逗 ， 你 输 错 了 ! ')) 

input type you number:5 

哈哈 ， 别 逗 ， 你 输 错 了 ! 

>>> 

(2) 字典 的 排序 。 

在 程序 中 使 用 字典 进行 数据 信息 统计 时 ， 由 于 字典 是 无 序 的 ， 所 以 打印 输出 的 字典 内 
容 也 是 无 序 的 。 因 此 ， 为 了 方便 结果 查看 ， 需 要 对 字典 进行 排序 。Python 中 字典 的 排序 分 
为 按键 key 排序 和 按 值 value 排序 。 


GD 按 “ 值 ”排序 。 
按 “ 值 ”排序 ， 就 是 根据 字典 的 value 进行 排序 ， 可 以 使 用 内 置 的 sorted0 函 数 。 
例如 : 


S32 dict=1" 刘 级 ': 1 vage': 10, stores 10) 

>>> sorted(dict.items(), key=lambda e:e[l1l], reverse=True) 

(SCGore,, 10), (tage J0).,， ("班级 "二 )] 

>>> 

其 中 e 表示 dict.itemsO 〇 中 的 一 个 元 素 ，e[1] 则 表示 按 值 排序 。reverse=False 可 以 省 略 ， 
默认 为 升序 排列 。 

说 明 : ”字典 的 .items(O 函 数 返回 的 是 一 个 列表 ， 列 表 的 每 个 元 素 都 是 一 个 键 和 值 组 成 
的 元 组 。 因 此 ，sorted(dict.items()，key=lambda e:e[1], reverse=True) 返 回 的 值 
同样 是 由 元 组 组 成 的 列表 。]lambda 函数 后 面 会 专门 介绍 。 

@， 按 “ 键 ” 排 序 。 

对 字典 进行 按键 排序 也 可 以 使 用 sorted0 函 数 ， 只 要 修改 为 sorted(dict.items0)， 
key=lambda e:e[0], reverse=True) 即 可 。 

4. set 


集合 (seb 是 一 个 无 序 、 不 重复 元 素 的 集 ，set 的 基本 功能 是 去 重 。 可 以 使 用 大 括号 {} 或 
者 setO 函 数 创建 set 集合 。 
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天 注意 : ”创建 空 集合 必须 用 set()， 不 能 使 用 { }， 因 为 {} 是 用 来 创建 空 字典 的 。 


例如 : 

> gtudene = ("Tom eyim' vary Tom "yackr "nosev} 并 有 于 私 元 素 
>>> print (student) # 重 复 的 元 素 被 自动 去 掉 

TC MOV ROSe Tom 

>>> 'Rose' in student #membership testing (成 员 测 试 ) 

True 

>>>student.add('Ben')  # 增 加 一 个 元 素 


>>> print (student) 


SL TACK Marv ROSS VTom Beny 


>>> 

集合 的 运算 

>>> a = set('abracadabra') # 将 字符 串 拆 成 集合 
> 


Pe ek pe 7- CR 


>>> b = Set("'alacazam' ) # 将 字符 串 拆 成 集合 


>>> b 

{l,m a, 'o')} 

>>> a-b # 从 a 中 去 除 b 的 元 素 
{'b', 'd', 'r') 

>>> alb #a 和 b 的 并 集 
IE 

>>> agb # 提 取 a 和 D 的 公共 元 素 一 一 交集 


fa en 

>>> a“b  # 提 取 a 和 ob 中 不 同时 存在 的 元 素 (交集 的 补 集 ， 也 叫 对 称 差 ) 
{OL EU Tm I 

>>> 


集合 的 去 重 。 集 合 有 过 滤 重 复元 素 的 功能 ， 自 动 将 重复 元 素 删 除 。 例 如 : 


>>> oat 2 2 A A 
全 
>>> 


2.2.11 格式 化 输出 


1. % 格 式 化 输出 


Python 用 print 进行 格式 化 输出 ， 有 以 下 几 种 模式 。 
(1) 输出 字符 串 : 


er 
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>>> print ("His name is %s"%("Aviad")) 
His name is Aviad 
> 


打印 输出 的 内 容 里 (“His name is %s”%(“Aviad”)) 有 两 个 %， 其 中 %s 表示 先 在 “His 


name is %s” 这 个 字符 串 中 占 个 位 置 ， 而 后 面 的 “Aviad” 才 是 %s 位 置 上 真正 要 显示 的 内 容 ， 
也 就 是 %s 位 置 上 要 显示 的 内 容 在 后 面 % 的 括号 内 ， 即 “Aviad”。 


38). 


(2) 输出 整数 : 


>>> print("He is %d years old"% (25)) 
He is 25 years old 
>>> 


第 一 个 例子 中 %s 是 要 替 字 符 串 占 位 置 ， 这 里 的 %d 表示 要 输出 后 面 提供 的 整数 。 
(3) 输出 浮 点 数 : 
>>>3 print("His helght Lis %f£ mS%(LE.83)) 


His height 8 .830000 nm 
>>> 


这 里 %f 表示 输出 后 面 提供 的 浮 点 数 。 
(4) 输出 浮 点 数 ( 指 定 保留 小 数 点 位 数 ): 
>>> print ("His height is %.2f m"%(1.83)) 


His height is 1.83 m 
>>> 


这 里 的 %.2f 表示 只 显示 小 数 点 后 两 位 数字 ， 也 就 是 指定 了 保留 小 数 点 位 数 。 
(5) 输出 指定 占 位 符 的 宽度 : 

>>> print ("Name:%10s Age:%8d Height:%8.2f"% ("Aviad",25,1.83)) 
Name: Aviad Age: 25 Height: 1 

>>>: pTinNnE( LT TOVve %. 29% pvthon') 


i love py 
> 


(6) 输出 指定 占 位 符 的 宽度 ( 左 对齐 ): 


>>> print ("Name:%-10s Age:%-8d Height:%-8.2f"% ("Aviad",25,1.83)) 
Name:Aviad Age:25 Height:1.83 
>>> 


(7) 指定 占 位 符 (0 或 者 空格 ): 


>>> print ("Name:$%-10s Age:%08d Height:%08.2f"% ("Aviad",25,1.83)) 
Name:Aviad Age:00000025 Height:00001.83 
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>>> 


2. format 格式 化 输出 


格式 化 字符 串 的 函数 str.formatO 可 谓 威力 十 足 。format 函数 跟前 面 的 % 型 格式 化 字符 
串 相 比 ， 其 优越 性 是 通过 {} 和 .来 代替 %， 看 如 下 示例 : 


>>> '{0},{1}'.format('yubg',39) # 这 里 的 0 和 1 表示 的 是 位 置 索引 
Ba el lo SS 

>>> '{},{}"'.format('yubg',39) # 位 置 索引 也 可 以 为 空 
YUIOSS92 


>>> '{1}, {0}, {1}'.format('yubg',39) # 可 以 接受 多 个 参数 ， 位 置 可 以 无 序 
ES ho i abi ole fs > 
>>> 


format 的 关键 字 参 数 : 


>>> '{name}, {age}'.format (age=39,name='yubg') 
aDdgy SS 
>>> 


有 多 个 输出 需要 多 个 占 位 符 时 ， 可 以 通过 设 定 下 标 加 以 区 分 : 


>>> P=[ "yubg"r39] 
Ql OL omat (py) 


WA 了 39 

>>> 

格式 限定 符 : 它 有 着 丰 富 的 格式 ， 比 如 填充 与 对 齐 ， 语 法 为 {中 带 :号 。 填 充 和 对 齐 经 
常 一 起 使 用 。 

© ^ 居中 ， 后 面 带 宽度 。 


@ < 一 一 左 对 齐 ， 后 面 带 宽度 。 
@ > 一 一 右 对 齐 ， 后 面 带 宽度 。 


@ :一 一 后 面 带 填充 的 字符 ， 只 能 是 一 个 字符 ， 不 指定 时 ， 默 认 是 用 空格 填充 。 
例如 : 

>>> '{:>8}'.format('189') # 默 认 是 用 空格 来 占 位 ， 要 显示 的 内 容 靠 右 对 齐 

' 189' 

>>> '{:0>8}' .format('189') # 用 0 来 占 位 

100000189， 

>>> '{:a<8}'.format ('189') # 用 字母 a 来 占 位 ， 要 显示 的 内 容 靠 左 对 齐 
'189aaaaa' 

>>> '{:* 个 7}' .format('189')# 用 * 来 占 位 ， 共 显示 7 位 ， 要 显示 的 内 容 居 中 

1 大 大 189x*r*1 
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精度 与 类 型 ft 精度 常 跟 浮 点 数 类 型 f 一 起 使 用 。 
例如 : 


>>> '{:.2f}'.format (321.33345) # 保 留 两 位 有 效 数字 
eb ee 
>>> 


2.2.12 strip、split 


1. strip() 


strip、1lstrip 、rstrip 的 使 用 方法 如 下 。 

@ strip: 去 掉 字 符 串 两 边 的 空格 。 

@ lstrip: 去 掉 字 符 串 左边 的 空格 。 

@ tstrip: 去 掉 字 符 串 右边 的 空格 。 

Python 中 的 strip 用 于 去 除 字符 串 的 首尾 字符 ， 同 理 ，lstrip 用 于 去 除 左边 的 字符 ， 
rstrip 用 于 去 除 右边 的 字符 。 这 三 个 函数 都 可 以 传 入 一 个 参数 ， 指 定 要 去 除 的 首尾 字符 。 需 
要 注意 的 是 ， 传 入 的 是 一 个 字符 数组 时 ， 编 译 器 去 除 两 端 所 有 相应 的 字符 ， 直 到 没有 [匹配 
的 字符 为 止 ， 例 如 : 

>>> theString = "Saaaay yes or no yaaaass' 

>>> print (theString.strip('say')) 

5 theSstring 

"saaaay yes or no yaaaass'! 

>>> 

theString 依次 被 去 除 首 尾 在 ['s’”,‘a’,‘y”] 列 表 内 的 字符 ， 直 到 字符 不 在 数组 内 ， 所 以 ， 输 
出 的 结果 为 : yes or no。 当 然 ， 这 里 生成 的 是 一 个 “副本 ”， 不 会 改变 原来 的 字符 串 


theString。 
lstrip 和 rstrip 的 原理 一 样 。 当 没有 传 入 参数 时 ， 是 默认 去 除 首 尾 的 空格 。 
例如 : 
>>> theString = 'saaaay yes or no yaaaass' 


>>> prirnt(Ehneotring .Strip( sayv 
yes or no 
>>> theString.strip('say') 


SS Or TO 
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>>> theString.strip('say ') 
eS Or NO 

>>> theString.lstrip('say') 
' yes or no yaaaass' 

2>> testring Pestrip( say) 
'saaaay yes or no "' 

> 


2. split() 


split0 的 作用 是 对 字符 串 进行 分 割 。 
(1) 按 某 个 字符 分 割 。 如 按 *… 进 行 分 割 : 


>>> str = ('Wwww.i-=-nuc.com'’) 
> 

WWW .i-nuc.com 

>>> Str Split = str split(" ,") 
2>> DEINGC(Str Split) 


a a ele; ha 


> 

(2) 按 某 个 字符 分 割 ， 且 分 割 n 次 。 如 按 … 分 割 1 次 : 
>>> str = ('www.i-nuc.com') 

>>> tr split = gbrBplit (nl) 


>>> print(str split) 
['www', 'i-nuc.com'] 
这 这 


(3) 按 某 个 字符 (或 字符 串 ) 分 制 ， 且 分 割 n 次 ， 并 将 分 割 完 成 的 字符 串 ( 或 字符 ) 赋 给 新 
的 n+l 个 变量 。 
如 按 … 分 割 字 符 ， 且 分 割 1 次 ， 并 将 分 割 后 的 字符 串 赋 给 两 个 变量 strl 和 str2: 


>>> url = ('www.i-nuc.com') 
> 
0 

www i-nuc.com 

> LNb(SEEL) 

WWW 

>>> print (str2) 

二 CC 

>>> 


【 例 2-7】 提取 下 面 字 符 串 中 的 50,0,51: 


(at. 
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>>> SlrT= RRNA oO Or Sl XXKRAARRR 
ob = SL Lit (ELI LAY EOI NSDLLG 
>>> print (lst) 

| 

>>> 


分 解 如 下 : 


>>> ds =Strt.split("[") # 按 照 左边 分 割 

ELLsty 

| 

>>> str.split("[") [1] .split("]") <# 再 对 1ist 的 index=1 的 元 素 按 "] "分 割 
| 

>>> str.split("[") [1] .split("]") [0] # 提 取 分 割 后 的 第 一 个 元 素 ， 即 index=0 
2 有 0 

TO 对 提取 后 的 按 兰 分割 
| 

ws 


2.2.13 divmod() 


divmod0: 返回 的 商 和 余数 是 一 个 tuple。 
格式 : divmod( 被 除数 ， 除 数 ) 

返回 值 : ( 商 ， 余 数 ) 

例如 : 


>>> bt = dvmod(/ 3 
A 

(2 

>>> 


或 者 : 


>>> quot,rem = divmod(7,3) 
>>> print (quot,rem) 

Zl 

人 人 学 


2.2.14 join() 


使 用 join0 函 数 ， 可 以 把 一 个 list 或 者 tuple 中 所 有 的 元 素 按 照 定义 的 分 隔 符 (sep) 连 接 
起 来 ， 但 限于 元 素 是 字符 型 。 
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语法 : ‘sep’.join(seq) 
例如 : 


a 
>>> sep = |， 
> 

SE 交 

四 s 基 慌 e 间 | 


>>> 


Ds 0] 


> lms 
ds 

> C273] 

> > 


Traceback (most recent call last): 


File "<pyshell#50>", 


Ty 


TypeError: sequence item 0: 


> 
> 
wl 

>>> 


(1) 测试 变量 类 型 : 
type (变量 ) 


(2) 转换 变量 类 型 ， 


str (变量 )  # 将 变量 转换 为 st 
int (变量 ) # 将 变量 转换 为 int 


(3) 查询 相关 命令 的 属性 和 方法 dir0: 


St 


in <module> 


本 章 小 结 


本 章 知 识 点 较 多 ， 重 点 是 list、tuple、dict、set。 


CONtAaLNnSe 2 


[add 7 oless 

OT Esteea 人 让 于 
"atattribute 0 Jtitem 
ml FT TNVE Sy 


FOrmat oo 


i th 7 =» 


expected str instance, int found 


"delattr 117 clitem 
02 
"nashe I Tadd ‘y 
Den: ys 了 3 


(43. 


mm Python 数据 分 析 基 础 


AH Sr ne ee DeWw vs, reduce a is 二 和 
repr Ne reversed ', ' rmul Er Setattr Ny Setitem "7 
sezeoto eo str subcLlasshook ly “append le olear oop 


oount i extende. ee "nsert'; pop'y "removey reverses "sort"] 

>>> 

从 上 面 的 列表 中 可 以 看 出 ，list 删除 有 两 个 属性 pop 和 remove(pop 默认 删除 最 后 一 个 
元 素 ，remove 删除 首次 出 现 的 指定 元 素 )。 

(4) 查询 已 安装 的 模块 : 


help('modules') 


对 于 初学 者 而 言 ， 也 许 dir0 和 help0 这 两 个 函数 是 最 有 用 的 ， 使 用 dir0 可 以 查看 指定 
模块 中 包含 的 所 有 成 员 或 者 指定 对 象 类 型 支持 的 操作 ， 而 help0 函 数 则 返回 指定 模块 或 函 
数 的 说 明文 档 。 例 如 : list 和 tuple 是 否 都 有 pop 和 sort 方法 呢 ? 那 用 help 查 一 下 ， 就 很 清 
楚 了 ， 并 且 列 出 了 具体 的 用 法 : 


>>> help (list) 


Help on class list in module builtins: 


append(...) 


L.append (object)-> None -- append object to end 


| 

| 

| 
DR 
| L.pop([index])->item--remove and return item at index (default last). 
| Raises IndexError if list is empty or index is out of range. 
国人 

| 


L.sort (key=None, reverse=False) -> None -- stable sort *IN PLACE* 


>>> help (tuple) 


Help on class tuple in module builtins: 


bl nk | 

| T.count (value) -> integer -- return number of occurrences of value 
| 

| 相间 人 和 

| 


T.index(value, [start, [stop]])->integer--return first index of 
value. 

| Raises ValueError if the value is not present. 
>>> 


(5) 查询 两 个 变量 的 存储 地 址 是 否 一 致 ， 使 用 id0 即 可 。 
(6) 查询 字符 的 ASCII 码 (十 进 制 的 ): 


>>> Or a ) 
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>>> 

反 过 来 ， 有 了 十 进 制 的 整数 ， 如 何 找 出 对 应 的 字符 ? 
>>> Co 

> 


(7) 查找 字符 串 的 长 度 : 


len() 


(8) str 通过 索引 能 找 出 对 应 的 元 素 ， 反 过 来 ， 能 否 通过 元 素 找 出 索引 ? 
>>>s='python good' 

和 >> 

ry! 

>>>s.index('y') 

>>> 


(9) tuple、list、string 的 相同 点 。 

每 一 个 元 素 都 可 以 通过 索引 来 读 取 ， 都 可 以 用 len 测 长 度 ， 都 可 以 使 用 加 法 “+” 和 数 
乘 “*”。 数 乘 表示 将 tuple、list、string 重复 数 倍 。 

list 的 .append、.insert、.pop、.del 和 list[m] 赋 值 等 方法 属性 均 不 能 用 于 tuple 和 str。 

(10) str.splitO 是 将 字符 型 转化 成 list， 如 下 例 : 

>>> s='I love python, and\nyou\t?hehe' 

>> (print(s) 


I love python, and 
you ?hehe 


> 9 ly # 英 文 “，” 

['I love python, and\nyou\t?hehe'] 
> Dlit up 

['I love python', ‘and\nyou\t?hehe'] 
> 


当 分 隔 符 不 在 字符 串 中 时 ， 会 整体 转化 成 一 个 list。 例 如 : 


SD L(t) 
[IT "love, "Python, and', yo ?hehe"] 
>>> 


当 分 隔 符 省 略 时 ， 会 按 所 有 的 分 隔 符 号 分 割 ， 包 括 \n( 换 行 ) 和 \t(tab 缩 进 ) 等 。 
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(11) Split 的 逆 运 算 : join。 例 如 : 


vsep JOLn (LESt) 


(12) 列表 和 元 组 之 间 是 可 以 相互 转化 的 : list(tuple)、tuplel(list)。 

元 组 的 操作 速度 比 列表 快 ， 列 表 可 以 改变 ， 元 组 不 可 变 ， 可 以 将 列表 转化 为 元 组 “ 写 
保护 ”; 字典 的 key 也 要 求 不 可 变 ， 所 以 元 组 可 以 作为 字典 的 key， 但 元 素 不 能 有 重复 。 

(13) 字符 串 检测 开头 和 结尾 : string.endswith('str)、string.startswith(estr”)。 

例如 : 


>>> file = 'F:\\data\\catering dish profit.xls'" 
>>> file.endswith('xls') # 判 断 £ile 是 否 以 xls 结尾 
True 


>>> 

>>> url = "http://www.i-nuc.com' 

>>> url.startswith('https') # 判 断 url 是 否 以 https 开头 
False 

>>> 


(14) S.replace( 被 查找 词 ， 蔡 换 词 ): 查找 与 蔡 换 。 例 如 : 


>>> S='I love python, do You love Python?3 
>>> S-.Ieplace(1 Python7y 7 RT7) 


VT Love By do vou love 及 R27 


>>> 
(15) re.sub( 被 蔡 词 ， 替换 词 ， 蔡 换 域 , flags=re.IGNORECASE): 查找 与 奉 换 ， 忽 略 大 小 
写 。 例 如 : 
>>> import re # 导 入 正则 模块 


>>> S='I love Python, do you love python?' 

> re saub( python yy Rs) # 在 S 中 用 R 替换 python 

'I love Python, do: You love R?" 

>>> re.sub('python','R',S, flags=re.IGNORECASE) # 蔡 换 时 忽略 大 小 写 
'I love R, do you love R?' 

>>> re.sub('python','R',S[0:15], flags=re.IGNORECASE,) 

TE dove Ro, 


>>> 
(16) Python 命名 规范 。 
QD ， 包 名 、 模 块 名 、 局 部 变量 名 、 函 数 名 : 全 小 写 + 下 划 线 式 驼 峰 。 


如 : this is_var。 


@ 全 局 变量 : 全 大 写 + 下 划 线 式 驼峰 。 
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如 : GLOBAL VAR。 

@@， 类 名 : 首 字 母 大 写 式 驼峰 。 

如 : ClassName()。 

由 关于 下 划 线 。 

以 单 下 划 线 开头 ， 是 弱 内 部 使 用 标识 ，from M import * 时 ， 将 不 会 导入 该 对 象 。 
以 双 下 划 线 开头 的 变量 名 ， 主 要 用 于 类 内 部 标识 类 私有 ， 不 能 直接 访问 。 

双 下 划 线 开头 且 双 下 划 线 结尾 的 命名 方法 尽量 不 要 用 ， 这 是 标识 。 


练 习 


( 已 知 : a=2,b=3， 要 求 : 将 a 和 ob 的 值 调换 ， 并 打印 结果 。 
(2) 已 知 : a=250,b = '250'， 要 求 : 阐述 a 和 b 所 引用 的 对 象 的 区 别 。 
(3) 计算 : 100 除 以 3 得 到 的 商 、 余 数 分 别 是 多 少 ? 如 果 保 留 3 为 小 数 ， 则 结果 将 是 


(4) 请 解释 如 下 现象 : 

2 OU OT 2 

2 G7 

>>> 

(5) 精确 计算 : 2 除 以 6。 要 求 : 结果 以 分 数 形式 (1/3) 输 出 。 

(6) 要 求 : 在 printO 里 面 将 “明月 几时 有 ”和 “把 酒 问 青天 ”两 句 分 两 行 输入 ， 但 输 
出 结果 时 在 一 行 。 

(7) 编写 程序 ， 要 求 输入 姓名 和 年 龄 ， 并 且 将 年 龄 加 10 之 后 ， 与 姓名 一 起 输出 。 

(8) 将 字符 串 “map” 的 字符 顺序 倒转 为 “pam” 。 

(9) 让 用 户 输入 一 个 单词 ， 并 显示 这 个 单词 的 长 度 。 

(10) 已 知 字符 串 : “Python is a widely used high-level，general-purpose，interpreted， 
dynamic programming language.” 要 求 : 将 字符 串 中 每 个 单词 的 第 一 个 字母 都 变 成 大 写字 
母 ， 最 终 样式 如 下 : 


"Python Is A Widely Used High-level, General-purpose, Interpreted, 

Dynamic Programming Language.' 

(11) 已 知 列表 : [“python”, “java”，“c”,，“c++”, “lisp”]。 要 求 : 用 切片 方式 将 此 列表 中 的 
第 1、3、5 项 取出 来 。 

(12) 生成 一 个 由 100 以 内 能 够 被 5 整除 的 数组 成 的 列表 ， 然 后 将 该 列表 的 数字 从 大 到 
小 排序 。 
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(13) 已 知 两 个 列表 :，citys = [“suzhou”, “shanghai”, “hangzhou”, “nanjing”]，codes = 
[“0512”,“021”,，“0571”,“025”]。 要 求 : 创建 一 个 字典 ， 以 citys 中 的 元 素 为 key， 以 codes 
中 的 元 素 为 value。 

(14) 已 知 : 列表 1st1=[1,2,3,4,5,6]，1st2=[“a”,“b”,“c”,“d”]。 要 求 : 以 lstl 的 元 素 为 key， 
以 1st2 的 元 素 为 value 建立 一 个 字典 ， 并 打印 输出 。 
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从 本 章 开始 ， 不 再 一 行 一 行 地 执行 代码 ， 而 是 将 整 段 代码 写 完 后 再 执行 。 本 章 暂 时 还 
使 用 形态 便捷 的 Python 3.5。 

从 开始 菜单 里 打开 Python 的 IDLE， 在 弹出 的 Shell 窗口 中 选择 File 一 New File 菜单 
命令 ， 即 弹出 一 个 空白 的 文本 框 窗口 ， 如 图 3-1 所 示 。 


ES Python 3.54 Shell 一 口 Xx Sunitea 
File| Edit Shell Debug Options Window Help JFle Edit Format Run Options Window Help 


Open Module.. Alt+M A Be 
ecel es 上 PA A A \ 

er (这 里 直接 写 程序 代码 ) 

Path Browser > 7 


Save Ctrl+S FS 有 


Save As,- Ctrl+Shift+S 
Save Copy As.. Alt+Shift+S 


Print Window Ctrl+p 


Close Alt+F4 
Exit Ctrl+Q 


图 3-1 在 IDLE 中 新 建文 件 


利用 第 2 章 中 的 例 2-5 字典 案例 ， 一 次 性 地 把 代码 写 完 ， 并 保存 在 指定 的 目录 下 ， 命 
名 为 testl.py， 后 缀 默认 是 .py。 然 后 选择 菜单 栏 中 的 Run 一 Run Module 命令 即 可 ， 或 者 
直接 按 下 快捷 键 F5， 即 会 弹出 运行 结果 窗口 。 具 体 情况 如 图 3-2 所 示 。 


[@ testi.py - C:/Users/yubg/AppData/Local/Programs/Python/Python35-3... 一 口 Xx 
File Edit Format Run Options Window Help 
# _* coding:UIF-8 *_ 


name=[* Ben”, ”Jone”, Jhon”, Jerry » Jan’, Wong”] 
tel= Teed 6602, 6603, 6604， 6605， 6808, 6607, ,60 
Tellbook={} 创建 一 个 空 字 典 
for i in sit oll on Cnn 

dl=” {} *.format (name [i]) # 从 name 中 取 一 个 姓名 

d2=" {] *. format (tel [i]) 从 tel 中 取 一 个 电话 

fT cit 992 # 用 把 d2 这 个 号 码 赋 值 给 字典 Tellbook 的 dl 键 
print (Tellbook) 


Ln:9 Col: 33 


多 Python 3.5.1 Shell me 口 
File Edit Shell Debug Options Window Help 


Python 3. 5.1 (v3.5. 1: 37a07cee5969，Dec 6 2015, 01;38:;48) [MSC v.1900 32 bit (In 二 
tel)] on win32 
TR "copyright”, “credits” or “license{)” for more information. 


= RESTART CG eT TOR De On Rn py = 
ta Ha, ‘Wong” ; ”6608 6606”， 605’, "Jerry’ : "6604d’ 
’Jhon’: '6603’, ’Ben’: “6601” "Te : ”6602， 

>2>> 


图 3-2 ”IDLE 新建 文件 界面 及 程序 运行 结果 


当 写 多 行 测试 代码 时 ， 会 经 常 需 要 注释 掉 大 段 代 码 ， 这 时 候 不 再 是 每 行 添加 #， 而 是 
在 注释 的 代码 段 第 一 行 前 添加 一 个 空 行 ， 写 上 三 个 单 引号 (”) 或 者 三 个 双 引 号 ;， 再 在 段 尾 
添加 一 行 ， 也 写 上 三 个 单 引 号 或 者 三 个 双 引 号 ， 也 就 是 将 要 注释 的 代码 段 放 在 两 个 三 引号 


so). 
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之 间 。 当 然 ， 也 可 以 将 要 注释 的 代码 段 选中 ， 按 下 F3 键 即 可 ; 当 要 取消 注释 时 ， 只 须 选 
中 要 取消 注释 的 代码 段 ， 按 下 F4 键 即 可 。 


3 关 注意 : ”在 Python 中 ， 可 以 在 各 种 编码 间 相 互 转换 ， 有 时 因为 编码 的 问题 ， 会 出 现 
乱码 。 如 果 在 “.py” 文件 中 使 用 了 中 文 ， 则 需要 在 文件 的 第 一 行使 用 如 下 
语句 指定 字符 编码 集 : # _* coding:UTF-8 _*_。 

关于 代码 操作 快捷 键 ， 应 牢记 如 下 操作 规则 。 
(1) 当 有 多 行 代码 需要 整体 缩 进 时 ， 选 中 代码 ， 缩 进 用 Ctrl+]， 取 消 缩 进 用 Ctrl+[。 
(2) 注释 多 行 代码 除了 使 用 三 引号 “ 包 起 来 ”的 办 法 ， 还 可 以 选中 要 注释 的 多 行 代 
码 ， 按 下 Altt3， 取 消 注 释 则 按 下 Alt+4。 
常用 的 快捷 键 见 表 3-1。 
表 3-1 常用 的 快捷 键 


快捷 键 功能 说 明 
Alt+P 浏览 上 一 条 命令 
Alt+N 浏览 下 一 条 命令 
Ctrl+F6 重启 Shell 
Alt+/ 自动 补 全 曾 出现 过 的 命令 单词 
Ctrl+] 缩 进 代 码 块 
Ctrl+[ 取消 代码 块 缩 进 
Altt3 注释 代码 块 
Alt+4 取消 代码 块 注释 


当 Python 的 IDLE 中 代码 字体 偏 小 时 ， 可 以 在 菜单 栏 中 选择 Options 一 Configure 
IDLE 命令 ， 在 弹出 的 设置 对 话 框 中 设置 字体 和 大 小 ， 如 图 3-3 所 示 。 


I. 


Indentadon wich 


AaBECeDdEa 
FiCeHbIiJ 亚 
1234567390 
各 + 人 了 口 


EE areb | canca | Hep | 


3-3 IDLE 界面 参数 设置 
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3.1 流程 控制 


3.1.1 if-else 


if-else 分 支 语 句 结构 的 特点 是 当 条 件 condition 满足 时 ， 执 行 if 下 的 语句 块 ， 当 条 件 


condition 不 满足 时 ， 执 行 else 下 的 语句 块 。if-else 的 语法 结构 如 下 : 


CONdLtoOn 
statement1 

SLSe” 
statement2 


if-else 需要 注意 的 格式 问题 : 

@ 在 站 和 else 行 尾 均 要 加 冒号 “:”。 

@ if 和 else 下 的 每 条 语句 都 要 用 缩 进 ， 即 显示 逻辑 层次 关系 ， 缩 进 4 个 空格 或 者 一 
个 Tab 键 ，Tab 键 和 空格 不 能 混用 ， 以 免 程 序 出 错 。 

@ 每 个 语句 各 占 一 行 。 

if-else 条 件 语 句 具 有 多 种 结构 形式 。 

(1) 只 有 一 个 条 件 和 单一 的 可 能 性 操作 时 ， 如 果 满 足 条 件 就 执行 第 二 行 。 例 如 : 

i=3 

5 SS ee 


print(r vou are Tightt") 


(2) 当 根 据 单一 条 件 有 两 种 不 同 操作 时 ， 可 以 使 用 else， 当 条 件 满足 时 执行 if 下 的 语 


句 块 ， 条 件 不 满足 时 执行 else 下 的 语句 块 ，else 要 与 让 对 齐 。 例 如 : 


eoN, 


i=3 #0or i=0 
ke 

站 人 大 天下》 
else: 


rine RT 
(3) 如 果 还 有 更 多 的 条 件 ， 可 以 使 用 elif。 例 如 : 


2 
ES 
elif i==1: 
Prin 1 ls) 
else: 


print(re 小 于 7 或 者 说 二 不 大 于 197) 
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3.1.2 for 循环 


使 用 for var in field:， 可 以 枚 举 field 中 的 所 有 元 素 var， 并 进行 循环 处 理 。 
(1) for 循环 语句 常用 于 遍历 列表 ， 基 本 人 句 型 如 下 : 
> nA 


print (i,end="','") 


27374y 
和 > 


上 面 的 代码 意思 是 将 列表 [2,3,4] 中 的 每 一 个 元 素 输出 。 在 print 语句 中 加 上 end=“,” 表 
示 将 结果 显示 在 一 行 中 ， 用 逗号 (,) 分 隔 开 。 
(2) for 循环 可 以 帮助 处 理 字符 串 。 假 如 想 分 别 输出 字符 串 中 的 每 一 个 字母 ， 则 : 


ob et. 


print (i) 


>>> 


(3) for 经 常 和 range 内 置 函数 配合 在 一 起 使 用 。 例 如 : 


> FOr LT Ir ANGe(3) 


PELrets) 


>>> 


(4) for 循环 可 以 用 来 生成 列表 。 如 用 range(3) 来 生成 列表 [0,1,2]， 然 后 使 用 循环 来 计 
算 x 的 平方 ， 放 入 列表 中 : 


> [XA%2 fOr K Ln Panget(3)] 
[0 1, 4] 
>>> 


(5) for 与 让 同 用 ， 表 示 按 条 件 来 生成 列表 。 如 生成 100 以 内 偶数 平方 构成 的 列表 : 


>>> [x**2 for x in range(10) if x$%2==0] 
[SU 
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>>> 


3.1.3 while 循环 


while 语句 用 于 循环 执行 程序 ， 即 在 某 个 条 件 下 循环 执行 某 段 程序 ， 以 处 理 需 要 重复 
处 理 的 相同 任务 ， 直 到 不 满足 循环 条 件 时 终止 。 
其 基本 形式 如 下 : 
while < 判断 条 件 >: 
< 执行 语句 > 
执行 语句 可 以 是 单个 语句 或 语句 块 。 判 断 条 件 可 以 是 任何 表达 式 ， 任 何 非 零 或 非 空 
Cul) 的 值 均 为 True。 当 判断 条 件 为 假 False 时 ， 循 环 结束 。 
【 例 3-1】 在 Python 的 IDLE 编辑 器 中 写 入 以 下 代码 : 
i=0 
while i<5: 
print('This is '+str (i)) # 将 i 转化 为 字符 型 才能 用 “+” 连 接 输出 
i+=1 # 相 当 于 i=i+1 
将 以 上 代码 保存 ， 并 按 F5 键 运行 ， 输 出 结果 如 下 : 
This is 0 
Thas TS 1 
THiS? '2 
Thlie E93 
Thls La 4 
THLS a 0 
>>> 
与 while 语句 相关 的 还 有 男 外 两 个 重要 的 命令 ， 即 continue 和 break， 用 来 跳 过 循环 。 
continue 用 于 跳 过 该 次 循环 继续 执行 下 一 个 循环 ， 而 break 则 是 完全 退出 while 循环 。 
此 外 ，“ 判 断 条 件 ” 还 可 以 是 个 常数 值 ， 表 示 循 环 必定 成 立 。 


3.1.4 continue 和 break 


在 循环 执行 过 程 中 ， 如 果 遇 到 continue， 则 跳 过 这 一 次 执行 ， 继 续 进 行 下 一 次 的 循环 
操作 。 如 共有 10 次 循环 ， 运 行 到 第 8 次 时 过 到 了 continue， 那 么 第 8 次 循环 马上 中 止 ， 后 
面 的 代码 不 再 执行 ， 继 续 开 始 第 9 次 循环 。 

在 循环 执行 过 程 中 ， 只 要 遇 到 break， 就 停止 循环 ， 跳 出 整个 while 循环 。 

【 例 3-2】 在 Python 的 IDLE 编辑 器 中 写 入 以 下 代码 : 


(5s4\. 
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输出 结果 如 下 : 


在 使 用 continue 编写 循环 语句 时 ， 要 避免 误 入 死 循环 ， 如 : 


wow 区 python 数据 分 析 基础 


本 例 欲 输出 小 于 10 的 奇数 ， 但 进入 了 死 循 环 。 因 为 当 i=2 时 被 整除 ， 于 是 进入 
continue， 后 面 的 print(i) 和 it=1 都 不 再 执行 ， 但 此 时 的 i 依然 是 等 于 2， 所 以 继续 进入 
过 2， 如 此 循环 往复 ， 只 有 强行 终止 才能 退出 。 

对 上 面 的 代码 稍 做 修改 即 可 正常 运行 了 : 


>>> i=1 
>>> while i<10: 
if i%2 == 0: 
i+=1 
continue 
print (i) 
i+=1 


WTA 


3.2 志 万 


如 果 给 定 一 个 list 或 tuple， 我 们 可 以 通过 for 循环 来 输出 list 或 tuple 中 的 每 一 个 元 
素 ， 这 个 过 程 称 为 遍历 。 这 种 遍历 也 称 为 迭代 (Iteration)。 在 Python 中， 迭代 是 通过 for in 


3.2.1 range() 函 数 


可 以 用 range0 函 数 生成 一 个 列表 : 
> Or TL Ln rangetoy: 


print (i,end=','") 


0,1,2,3,4, 
>>> 


range(5) 中 的 参数 5 代表 从 0 到 4 的 一 个 长 度 为 5 的 序列 。Python 中 的 索引 序列 一 般 
都 是 左 闭 右 开 的 ， 即 不 包含 右边 的 数据 。 此 遍历 也 可 以 改写 成 一 句 : 


Fnt(E Eo Td Tn Pangetsy)el) 
[0, 1, 2, 3, 4] 


(se. 
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> 


当然 ， 可 以 自 定义 需要 的 起 始点 和 结束 点 : 


>>> list (range (1,5)) # 代 表 从 1 到 5， 不 包含 5 
i 2 
>>> 


说 明 : ”在 以 前 的 版 本 中 ，rangeO 函 数 直接 返回 一 个 列表 ， 但 在 3.5 版 本 中 ，range() 
作为 一 个 容器 存在 。 当 需要 将 它 作 为 列表 时 ， 只 要 用 list 转化 一 下 即 可 ; 如 
果 需 要 将 它 作 为 元 组 ， 只 要 用 tuple 转化 一 下 即 可 。 例 如 : 


>>> a=range (5) 
> St te) 
LO Lo 2 3 4 
>>> tuple (a) 
人 


定义 一 个 从 5 开始 到 100 结束 的 列表 : 


>>> lstbh = for i in rangel(Sssl00y)] 

>>> DELNtE(LIStB) 
多 
2 
dm dar dd 4 DSS97 
GO Ol O02 0764 30D 60 Oo G07 707 L727 or Mr /or To 7 
BBy TOPOQT BLO27 BO GA BODO Ol DT DOPOD ol vo Id 95 
96r “917 98% 99] 

>>> 


rangeO 函 数 还 可 以 定义 步 长 ， 下 面 定义 一 个 从 1 开始 到 30 结束 ， 步 长 为 3 的 列表 : 


>>> Print(crzange(1ly 30，3) 表示 ",list(range (1l,30,3))) 
ange(l 3307 30 A T1013 6 9 2 25.28] 
> 

| 

ls 


range() 函 数 也 可 以 倒序 ， 格 式 为 range(a,b,-1)，a 要 大 于 b。 例 如 : 


>>>LESt (range ts 0 1)) 
| 

>>>list (range (5，0，-2)) # 步 长 为 -2 
ESy Sr HH 

>>> 
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【 例 3-3】 对 array 进行 排序 ， 在 Python 的 IDLE 中 输入 下 面 的 代码 : 


array = Tly 27 Sy Sy G7 Ly: 
For Dn range(llentarrav 0 I) 
print (i) 
for J Ln range(Q, 二 
print{(] yend=",),) 
Th Aarrav El > arravty op tl 
drravltal arcartEy Ft LI array je | 
print (array) 


分 析 这 段 代 码 : 

行 1: array = [1, 2, 5, 3, 6, 7, 4]， 是 一 个 乱 序 的 list。 

行 2: for i in range(len(array) - 1, 0, -1):， 蔡 换 后 就 成 为 range(6,0,-1)， 意 思 是 从 6 到 
0， 步 长 为 -1， 随 后 把 这 些 值 循环 赋 给 i，i 的 值 将 会 是 6, 5, 4, 3, 2, 1 。 

行 4: forj in range(0, i)， 这 是 一 个 循环 赋值 给 j 的 语句 ，j 的 值 将 会 是 [0, 1, 2, 3, 4, 5][0， 
1, 2, 3, 4][0, 1, 2, 3][0, 1, 2][0, 1]。 

那么 上 边 两 个 循环 藤 套 起 来 将 会 是 : 


中 
On 


; Ordr2r3r4r3 


ll 
a 


» O01lr2r3r4 


0 


0 同 于 本 玫 太 且 和 帮 二 和 
| ek! Il 
> 心 
王 
一 
D 


OO 
~ 
ES 


行 6: ifarray[j] > array[j + 1]， 判 断 array 的 前 后 两 个 元 素 大 小 。 
行 7: array[j], array[j + 1] = array[j + 1], array[j]j， 蔡 换 赋值 。 
本 例 执行 的 结果 如 下 : 


6 

O07 17273747573 
0,1,2,3,4,4 

0,1,2,3,3 

0,1,2,2 

2 

dnt Zr SB 4 Sr or 


其 实 ， 使 用 sort0 函 数 就 能 完成 以 上 排序 问题 : 
58\. 
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>>> array TO Sn Gy Jy 4] 
>>> array.sort () 

>>> array 

| 

> 


【 例 3-4】 求 100 到 1000 的 水 仙 花 数 。 若 二 a^3+b^3+c^3， 则 称 i 为 水 仙 花 数 。 


> EOr Din range(E00 LOG 
ge=i%10 
Shi= 1 /VO 40 
bai= i // 100 


台大 hi 和 ait = 
Print (Li) 
LD3 
370 
成 
407 
>>> 


3.2.2 ”列表 与 元 组 的 遍历 


如 果 需 要 遍历 一 个 数字 序列 ， 可 以 使 用 Python 中 内 建 的 函数 range()。 
例如 ， 下 面 遍历 一 个 列表 test_list: 
>>> test list =[1,3,4,'Hongten',3,6,23,'hello',2] 


>>> for 1 in range(len{(test list)): 


print(test list[i],end=",") 


3rdrHongtenr Gn23 hellor 2Zy 
>>> 


元 组 的 遍历 : 


>>> tup= "(abd yy .123") 
>>> for i in range(len (tup)): 
perlint (tupEly) 


abd 


123 
>>> 


(se\. 
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二 元 元 组 的 遍历 : 


for i in range (len (user)): 
for j in range (len (user)): 


print (ruser[ "tetr {dy [oatr (I |=" USerlBl] [jy 


再 如 : 


user=((L,2), 4374)) 
for i in range (len (user)): 
for j in range(len (user)): 


print('user['+str(i)+'] ['+tstr(j)+']=',user[i] [j]) 


输出 : 


user[0] [0]= 1 
user[0] [1]= 2 
user[1][0]= 3 
USser [1][1]= 4 


多 维 元 组 需要 稍微 改动 : 


for i in range(LIen(user) ) : 
for j in range (LIen(user[i])) : 


Eerient( nem ot (tI etm rl 


例如 : 


User=0(Lr 2 or A) (Sa Or 6) (S50)) 
for i in range (len (user)): 
for J in range(tlen(user[l 
print ('uUser['+str(i)+'] ['+str(j)+']=',user[i][j]) 


输出 : 


user[0] [0]= 
user[0] [1]= 
user[0] [2]= 
user[0] [3]= 
user[1] [0]= 
user[1] [1]= 
user[1] [2]= 
user[1] [3]= 
user[2] [0]= 
user[2] [1]= 


< A os BY I 
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3.3 


国 
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3.3.1 函数 的 定义 


在 Python 中 ， 逊 数 定义 的 基本 形式 如 下 : 


def function (params): 
block 


return expression/value 


说 明 如 下 。 

(1) 在 Python 中 采用 def 关键 字 进 行 函数 的 定义 ， 不 用 指定 返回 值 的 类 型 ， 另 外 注意 
def 行 尾 的 冒号 “:” 不 能 丢 ; 函数 的 命名 一 般 首 字母 不 要 大 写 ， 以 区 别 后 面 讲 到 的 类 。 

(2) 函数 参数 params 可 以 是 零 个 、 一 个 或 者 多 个 ， 同 样 ， 函 数 参 数 也 不 用 指定 参数 类 
型 ， 因 为 在 Python 中 ， 变 量 都 是 弱 类 型 ，Python 会 自动 根据 值 来 维护 其 类 型 。 

(3) return 语句 是 可 选 的 ， 它 可 以 在 函数 体内 的 任何 地 方 出 现 ， 表 示 函 数 调 用 执行 到 
此 结束 ; 如 果 没 有 return 语句 ， 会 自动 返回 NONE， 如 果 有 return 语句 ， 但 return 后 面 没 
有 接 表达 式 或 者 值 ， 则 也 返回 NONE。 返 回 的 值 就 是 输出 的 功能 ，return 可 以 返回 多 个 
值 ， 如 return a,b,c， 以 逗号 分 隔 ， 相 当 于 返回 一 个 tuple( 定 值 表 )， 相 当 于 return (a,b,c)。 

应 注意 ， 函 数 体内 部 的 语句 在 执行 时 ， 一 旦 执行 到 return 时 ， 函 数 就 执行 完毕 ， 并 将 
结果 返回 。 
因此 ， 函 数 内 部 通过 条 件 判 断 和 循环 可 以 实现 非常 复杂 的 逻辑 。 如 果 没 有 return 语 
函数 执行 完毕 后 也 会 返回 结果 ， 只 是 结果 为 None。return None 可 以 简写 为 return。 
(4) 一 般 在 block 中 还 包含 有 一 个 注释 体 函数 文档 ， 功 能 是 解释 这 个 函数 的 功 
用 ， 用 两 个 三 引号 包围 起 来 ， 放 在 block 的 最 前 面 ， 也 是 为 了 方便 能 够 用 help 函数 查询 。 

【 例 3-S】 在 Python 的 IDLE 中 输入 以 下 代码 : 


def printHello(): 
print('Hello') 


句 


- 


def readNum(): 
FOr nN Eade(l0r oon: 
print (GL) 


return 


def add(a,b): 
return a+b 


print (printHello()) 
print (readNum()) 


wow 区 》 Python 数据 分 析 基 础 
print (add (1,2)) 


输出 结果 如 下 : 


>>> 
Hello 


None 


3.3.2 ”函数 的 使 用 


在 Python 中 ， 函 数 的 使 用 有 严格 的 规定 ， 函 数 不 允 许 前 向 引用 ， 即 函数 应 当 定 义 在 
前 ， 使 用 在 后 。 

例如 : 

print (add (1,2)) 


def add(a,b): 


return at+b 


程序 的 执行 结果 如 下 : 


>>> 
Traceback (most recent call last): 
File "“"C:/Users/yubg/AppData/Local/Programs/Python/Python35-32/test5.py", 
line 1, in <module> 
print (add (1,2)) 
NameError: name "add' is not defined 
>>> 


从 报错 中 可 以 看 出 ， 命 名 为 add 的 函数 未 进行 定义 。 所 以 在 调用 某 个 函数 时 ， 必 须 确 
保 此 函数 定义 在 调用 之 前 ， 即 先 定义 函数 ， 然 后 再 调用 。 上 述 程序 可 修改 如 下 : 


def adadq (ab) : 
return a+b 
Print (adod(Lre2}) 


ooN, 
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3.3.3” 形 参 和 实 参 


形 参 全 称 是 形式 参数 ， 在 用 def 定义 函数 时 ， 函 数 名 后 面 括号 里 的 变量 称 作 形 式 参 
数 。 在 调用 函数 时 提供 的 值 或 者 变量 称 作 实际 参数 ， 实 际 参 数 简称 为 实 参 。 
【 例 3-6】 形 参 和 实 参 : 


# 这 里 的 a 和 bb 就 是 形 参 
def addl(a,b): 
return a+b 


# 这 里 的 1 和 2 是 实 参 
add (1,2) 


# 这 里 的 x 和 y 是 实 参 
X=2 

y=3 

adqd (x,y) 


3.3.4 ”参数 的 传递 和 改变 


在 大 多 数 高 级 语言 中 ， 对 参数 传递 方式 的 理解 一 直 是 个 难点 和 重点 ， 因 为 它 理解 起 来 
并 不 是 那么 直观 明了 。 下 面 我 们 来 探讨 一 下 Python 中 函数 的 参数 传递 问题 。 

在 讨论 此 问题 之 前 ， 需 要 明确 的 是 ， 在 Python 中 ， 一 切 皆 对象 ， 包 括 我 们 先前 用 到 的 
字符 串 常量 、 整 型 常量 等 都 是 对 象 ， 变 量 中 存放 的 是 对 象 的 引用 。 验 证 如 下 : 


六 六 盖 所 下 下 TELEGRS 
1482897232 
>>>printlid( Pythonm’)) 
13845280 

>>>x=2 

>>>Print (de (x)) 
1482897184 
>>>y="'hello"' 

>>>print (ida(y) ) 

人 26860 


.(63\， 
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先 解释 一 下 函数 id0 的 作用 。id(objecb 返 回 对 象 object 在 其 生命 周期 内 位 于 内 存 中 的 
地 址 ，id 函数 的 参数 类 型 是 一 个 对 象 ， 因 此 ， 由 于 语句 id(5) 没 有 报错 ， 就 可 以 知道 5 在 这 
里 是 一 个 对 象 © 又 如 : 

X=2 

Print (id(2)) 

PELint (tit)) 

y='hello' 

print (id('hello')) 

print (id(y)) 

其 运行 结果 如 下 : 


> 
1683699488 
1683699488 
58192800 
58192800 

学 深思 


从 结果 可 以 看 出 ，id(x) 和 id(2) 的 值 是 一 样 的 ，id(y) 和 id(“hello’) 的 值 也 是 一 样 的 。 

在 Python 中 ， 一 切 皆 对 象 。 像 2、‘hello* 这 样 的 值 都 是 对 象 ， 只 不 过 2 是 一 个 整 型 对 
象 ， 而 ‘hello* 是 一 个 字符 串 对 象 。 上 面 的 x=2， 在 Python 中 实际 的 处 理 过 程 是 这 样 的 ， 先 
申请 一 段 内 存 分 配给 一 个 整 型 对 象 来 存储 整 型 值 2， 然 后 让 变量 x 去 指向 这 个 对 象 ， 实 际 
上 就 是 指向 这 段 内 存 。 而 id(2) 和 id(x) 的 结果 一 样 ， 说 明 id 函数 在 作用 于 变量 时 ， 其 返回 
的 是 变量 指向 的 对 象 的 地 址 。 因 为 变量 也 是 对 象 ， 所 以 在 这 里 可 以 将 x 看 成 是 对 象 2 的 一 
个 引用 。 

下 面 再 看 个 例子 : 


X=2 

Peint (liz) 
y=2 

print (id(y)) 
s="'hello' 
Print (id(s)) 
is 
Pinttaeette) 何 


其 运行 结果 如 下 : 


>>> 


(ea\. 


1683699488 
1683699488 
58586016 
58586016 
> 
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从 运行 结果 可 以 看 到 ，id(x) 和 id(y) 的 结果 是 相同 的 ，id(s) 和 id(t) 的 结果 也 是 相同 的 。 


m=2 
K=[4,5,6] 


return 


def modify2 (m,K): 


m=2 
K[0]=0 
return 


n=100 
L=[17273] 
modifyl (n,L) 
DELnE() 
print (L) 
modify2 (n,L) 
print (n) 
print (L) 


程序 运行 结果 如 下 : 


>>> 
100 
bl 27 3] 
100 
| 


这 说 明 x 和 y 指向 的 是 同一 对 象 ， 而 t 和 s 也 是 指向 同一 对 象 。x=2 这 人 句 让 变量 x 指向 了 
int 类 型 的 对 象 2， 而 y=2 这 人 句 执 行 时 ， 并 不 重新 为 2 分 配 空间 ， 而 是 让 y 直接 指向 了 已 经 
存在 的 int 类 型 的 对 象 2。 这 个 很 好 理解 ， 因 为 本 身 只 是 想 给 y 赋 一 个 值 2， 而 在 内 存 中 已 
经 存在 了 这 样 一 个 int 类 型 的 对 象 2， 所 以 就 直接 让 y 指向 了 已 经 存在 的 对 象 。 这 样 一 来 ， 
不 仅 能 达到 目的 ， 还 能 节约 内 存 空间 。t=s 这 名 变量 互相 赋值 ， 也 相当 于 是 让 t 指向 了 已 经 
存在 的 字符 串 类 型 的 对 象 'hello"。 

下 面 就 来 讨论 一 下 函数 的 参数 传递 和 改变 这 个 问题 。 

在 Python 中 ， 参 数 传 递 采用 的 是 值 传递 。 先 看 个 例子 : 


def modqify1l (mv K) : 


.(65\， 
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从 结果 可 以 看 出 ， 执 行 modify10 之 后 ，n 和 LL 都 没有 发 生 任何 改变 ; 执行 modify20 
后 ，n 还 是 没有 改变 , 但 L 发 生 了 改变 。 因 为 在 Python 中 ， 参 数 传递 采用 的 是 值 传递 方 
式 ， 在 执行 函数 modifyl 时 ， 先 获取 n 和 工 的 id0 值 ， 然 后 为 形 参 m 和 分配 空间 ， 让 mm 
和 K 分 别 指向 对 象 100 和 对 象 [1,2,3]。m=2 这 句 让 m 重新 指向 对 象 2， 而 K=[4,5,6] 这 句 让 
K 重新 指向 对 象 [4,5,6]。 这 种 改变 并 不 会 影响 到 实 参 n 和 工 ， 所 以 在 执行 modifyl 之 后 ，n 
和 工 没有 发 生 任 何 改变 。 在 执行 函数 modify2 时 ， 同 理 ， 让 m 和 K 分 别 指向 对 象 2 和 对 
象 [1,2,3]， 然 而 K[0]=0 让 K[0] 重 新 指向 了 对 象 0( 注 意 这 里 K 和 工 指向 的 是 同一 段 内 存 )， 
所 以 对 K 指向 的 内 存 数据 进行 的 任何 改变 也 会 影响 到 L， 因 此 在 执行 modify2 后 ,EL 发 生 
了 改变 。 


3.3.5 ”变量 的 作用 域 


在 Python 中 ， 也 存在 作用 域 的 问题 ， 会 为 每 个 层次 生成 一 个 符号 表 ， 里 层 能 调用 外 层 
中 的 变量 ， 而 外 层 不 能 调用 里 层 中 的 变量 ， 并 且 当 外 层 和 里 层 有 同名 变量 时 ， 外 层 变 量 会 
被 里 层 变 量 屏蔽 掉 。 

【 例 3-7】 不 同 作用 域 中 的 变量 : 


def FunCttomey: 


X=2 

count=2 

while count>0: 
X=3 
Prt (3) 
count -= 1 


function() 


运行 结果 如 下 : 


i 


在 函数 function 中 ，while 循环 的 外 部 和 内 部 都 有 变量 x， 此 时 while 循环 外 部 的 变量 
x 会 被 屏蔽 掉 。 注 意 在 函数 内 部 定义 的 变量 作用 域 都 仅 限 于 函数 内 部 ， 在 函数 外 部 是 不 能 
够 调用 的 ， 一 般 称 这 种 变量 为 局 部 变量 。 

还 有 一 种 变量 叫 作 全 局 变量 ， 它 是 在 函数 外 部 定义 的 ， 作 用 域 是 整个 程序 。 全 局 变量 
可 以 直接 在 函数 内 部 应 用 ， 但 是 ， 如 果 要 在 函数 内 部 改变 全 局 变量 ， 必 须 使 用 global 关键 


.166\， 


字 进 行 声明 。 
【 例 3-8】 全 局 变量 : 
X=2 
def funl 0 


print (x) 


def fun2(): 
global x 
X=3 


print (x) 


funil () 
fun2 () 
print (2) 


运行 结果 如 下 : 


2 


>>> 
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# global 语句 用 于 声明 一 个 或 多 个 全 局 变量 


函数 def 定义 的 变量 只 能 在 def 的 内 部 使 用 ， 不 能 在 函数 外 部 使 用 。 一 个 在 def 之 外 被 
赋值 的 变量 X 与 一 个 在 def 内 部 被 赋值 的 变量 X 是 完全 不 同 的 两 个 变量 。Python 变量 可 以 
分 为 本 地 (def 内 部 ， 除 非 用 global 声明 )、 全 局 (模块 内 部 ) 和 内 置 (预定 义 的 _builtin 模 
块 )。 全 局 声明 global 会 将 变量 名 映射 到 模块 文件 内 部 的 作用 域 。 变 量 名 的 引用 将 依次 查找 


本 地 、 全 局 、 内 置 变量 。 例 如 


X= :99 

def add{(Y): 
四 
LetuUrny 


print (adqd (1)) 


结果 如 下 : 


100 
> 


global 语句 用 于 声明 一 个 或 多 个 全 局 变量 。 例 如 : 


X =: 88 
def Tanc ly: 


wow 区 》 Python 数据 分 析 基 础 


3.3.6 ”函数 参数 的 类 型 


global X 
X= 99 


func () 
print (xX) 


输出 结果 如 下 : 


99 
>>> 


再 例如 : 


We 


def 二 ne 
global x 


X= y+z 


func () 


print (x,y,2z) 


结果 如 下 : 


> 
>>> 


先前 我 们 接触 到 的 函数 的 参数 叫 作 位 置 参数 ， 即 参数 是 通过 位 置 进行 匹配 的 ， 从 左 到 
右 依次 进行 ， 对 参数 的 位 置 和 个 数 都 有 严格 的 要 求 。 而 在 Python 中 ， 还 有 一 种 是 通过 参数 
的 名 称 来 匹配 ， 这 种 匹配 方式 不 需要 严格 按照 参数 定义 时 的 位 置 来 传递 ， 这 种 参数 叫 作 关 


键 字 参 数 。 


例如 : 


def display(a,b): 
print (a) 
BrEint (DB) 


display('hello ','world') 


这 段 程序 是 想 输 出 hello world， 可 以 正 


预期 的 结果 : 


(es). 


运行 。 如 果 是 下 面 这 段 代码 ， 可 能 就 得 不 到 
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def display (a,b): 


print (a) 

PrNt (BD) 
display('hello') # 这 样 会 报错 
display('world','hello') # 这 样 会 输出 worldhello 


可 以 看 出 ， 在 Python 中 默认 是 采用 位 置 参数 来 匹配 ， 所 以 在 调用 函数 时 必须 严格 按照 
函数 定义 时 参数 的 个 数 和 位 置 来 传递 ， 否 则 将 会 出 现 预想 不 到 的 结果 。 
下 面 这 段 代 码 采 用 关键 字 参 数 传递 : 


def displayl(a,b): 
print (a) 
print (DB) 


# 下 面 两 句 代码 的 效果 是 相同 的 
display(a='world',b='hello') 
display(b='hello',a='world') 


输出 结果 如 下 : 


world 
hello 
world 
hello 
>>> 


从 上 面 的 输出 结果 可 知 ， 通 过 指定 参数 名 称 传递 参数 时 ， 参 数位 置 对 结果 没有 影响 。 
另外 ， 关 键 字 参 数 最 优越 的 地 方 在 于 它 能 够 给 函数 参数 提供 默认 值 。 例 如 : 


def display(a='hello',b='world'): 
print (at+b) 


display() 
display(b='world') 
display(a='hello') 
display('world') 


输出 结果 如 下 : 


helloworld 
helloworld 
helloworld 
worldworld 
>>> 
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在 上 面 的 代码 中 ， 分 别 给 a 和 b 指定 了 默认 参数 ， 即 如 果 不 给 a 或 b 传递 参数 ， 它 们 
就 分 别 采 用 默认 值 。 在 给 参数 指定 了 默认 值 后 ， 如 果 传 递 参 数 时 不 指定 参数 名 ， 则 会 从 左 
到 右 依 次 传递 参数 ， 比 如 display(“world”) 没 有 指定 ‘world* 是 传递 给 a 还 是 b， 则 默认 从 左 
向 右 匹 配 ， 即 传递 给 a。 另 外 ， 默 认 参 数 一 般 靠 右 。 

使 用 默认 参数 固然 方便 ， 但 在 重复 调用 函数 时 ， 默 认 形 参 会 继承 前 一 次 调用 结束 之 后 
该 形 参 的 值 。 例 如 : 

def insert (a,L=[]): 


L.append (a) 
Drint (Ey 


insert('hello') 


insert('world') 


其 运行 结果 如 下 : 
LeFleosd 
| 
>>> 


3.3.7 “任意 个 数 的 参数 


一 般 情况 下 ， 在 定义 函数 时 ， 函 数 参 数 的 个 数 是 确定 的 ， 然 而 ， 在 某 些 情况 下 ， 参 数 
的 个 数 是 不 确定 的 。 比 如 某 系 统 要 存储 用 户 的 姓名 及 其 小 名 ， 有 些 人 的 小 名 可 能 有 两 个 或 
者 更 多 个 ， 此 时 无 法 确定 参数 的 个 数 ， 就 可 以 使 用 任意 多 个 参数 (收集 参数 )， 使 用 收集 参 
数 时 ， 只 需 在 参数 前 面 加 上 “*” 或 者 “**” 即 可 。 例 如 : 
def storename (name,*nickName): 
print('real name is $s' Sname) 


for nickname in nickName: 


print (nickname) 


storename ('jJack') 
storename (u' 詹姆斯 ',u' 小 皇帝 ') 
storename (u' 奥 尼 尔 ',u' 大 闭 鱼 ',u' 三 不 沾 ') 


输出 结果 如 下 : 


real name is jack 
real name is 詹姆斯 
小 皇帝 


real name is 奥尼尔 
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大 效 鱼 

三 不 沾 

>>> 

“*” 和 “**” 表 示 能 够 接受 0 到 任意 多 个 参数 ，“*” 表 示 将 没有 匹配 的 值 都 放 在 同 
一 个 元 组 中 ，“**” 表 示 将 没有 匹配 的 值 都 放 在 一 个 dictionary 中 。 例 如 : 


def printvalue (a, *s,**d): 


print (ay 


printvalue (1,2,c=3) 
printvalue (1,3,4,2,c=3,f="]1") 


输出 结果 如 下 : 

2 

Oe 
>>> 


需要 补充 一 点 : 在 Python 中 ， 函 数 是 可 以 返回 多 个 值 的 ， 如 果 返 回 多 个 值 ， 会 将 多 个 
值 放 在 一 个 元 组 或 者 其 他 类 型 的 集合 中 返回 。 例 如 : 


def function(yp: 
x=2 
y= [3,4] 
return XxX,y 


print (function ()) 


输出 结果 如 下 : 


(2, [3, 4]) 
二 > 


3.3.8 函数 调用 


把 已 经 编辑 好 的 程序 代码 保存 成 .py 文件 ， 就 可 以 直接 在 Python 的 IDLE 中 运行 了 ， 
从 菜单 栏 中 选择 File 一 Open... 命 令 打 开 即 可 ， 再 直接 按 F5 键 即 可 运行 。 

Python 可 以 调用 已 保存 为 a.py 文件 内 的 所 有 函数 ， 方 案 如 下 。 

(1) 将 apy 文件 做 成 一 个 包 ， 或 者 直接 和 调用 文件 放 在 同一 个 目录 下 。 

(2) 在 调用 文件 头 引 入 : from a import *。 

这 样 就 可 以 使 用 apy 文件 内 的 所 有 函数 了 。 


wn》 Python 数据 分 析 基础 


【 例 3-9】 在 prin.py 文件 中 调用 tel.py 文件 。 
文件 tel.py 的 代码 内 容 : 


name= [ "Ben" "Jone" "Johnnm “Jerry" 4 ANT a T IVY" "Jann 站 "Wong"] 
tel=[6601,6602,6603,6604,6605,6606,6607,6608] 


Tellbook={} 

for i in range (len (name)): 
dl="{}".format (name [i]) 
d2="{}".format (tel[i]) 
Tellbook[dl1]=d2 


文件 prin.py 的 代码 内 容 : 


from 七 el import * 
print (Tellbook) 


Print( thEs dso teste for morte 芒 


prin.py 文件 要 做 两 件 事情 ， 先 把 tel.py 文件 中 的 Tellbook 打印 一 下 ， 再 打印 一 句 话 : 


‘this ls a test for import.’” 。 


ra, 


执行 文件 prin.py， 其 结果 如 下 : 


iolnd: HOD "Pen LOOOL rE VIoOner 2 oO602., EVI OGQO WerEYS: 
OO0AT "WONnGg Ee SOO rman "oO "Ann o "SoDS. 

thlsgllio tes or daporte, 

> > 


函数 也 一 样 ， 当 我 们 调用 函数 时 ， 也 需要 使 用 import 来 导入 。 
【 例 3-10】 函 数 的 导入 和 调用 。addyu.py 文件 的 内 容 如 下 : 


#addyu.py 

def add(a=0,b=0): 
此 函数 是 计算 两 个 数 的 和 
当 不 输入 参数 时 ,默认 的 是 0+0 
c=at+b 
print (oe) 

def test (m,K=0, *tup,**dic): 
Brint ('m: vm) 
prant (VE Ln) 
perint(t Cup Cau) 
BPEL (One re) 


return 
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在 下 面 的 test_addyu.py 文件 中 调用 addyu.py 内 的 add(a,b) 函 数 : 

#test addyu.py 

from addyu import add 

a=add (1,2) 

这 里 的 ffom addyu import add 的 意思 是 从 addyu.py 文件 中 导入 add(a,b) 函 数 。 当 然 ， 
如 果 要 导入 addyu.py 文件 中 所 有 的 函数 ， 那 就 是 fom addyu import *， 为 了 避免 导入 所 有 
的 函数 占 内 存 ， 所 以 一 般 用 到 什么 函数 就 导入 什么 函数 。 只 有 当 导 入 的 函数 比较 多 时 ， 才 
使 用 * 。 另 外 ， 为 了 防止 导入 的 多 个 模块 中 有 相同 的 函数 名 而 引起 混乱 ， 不 建议 使 用 *。 

执行 test addyu.py， 结 果 如 下 : 


3 
六 之 六 


说 明 :， 写 函 数 时 要 养 成 好 的 习惯 一 写 函 数 文档 ， 即 写 清楚 函数 的 功能 是 什么 、 怎 
么 用 ， 并 把 文档 内 容 用 三 引号 注释 起 来 ， 它 不 是 函数 体 的 执行 代码 ， 它 的 作 
用 是 给 help 提供 查询 的 ， 如 查 上 例 中 addyu.py 文件 的 功能 : 


>>> help(add) 
Help on function addyu in module addyu: 


add (a=0, b=0) 
此 函数 是 计算 两 个 数 的 和 
当 不 输入 参数 时 ,默认 的 是 0+0 


>>> 


还 是 上 例 ， 按 如 下 输入 ， 并 观察 结果 : 


>>> from addyu import test 
>>> Cesti( al) 


mal 


> St) 
WS 

0 

| 

dcos 人 

2 
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>>> test('al',K=2) 
WL 

R12 

tup: () 

DOT} 

>>> 


>>> test('al',2,3,6,fname='yu',name='bg') 


m: al 

KK 

Cup (tar 60) 

dle A Tname so Mr me oe 
>>> 


>>> test('al',K=2,3,6,fname='yu',name='bg') 
SyntaxError: positional argument follows keyword argument 
>>> test('al',K=2,fname='yu',name='bg') 
Ws 
1 
tup: () 
dio: fnaine sy yu Name' ss Do. 
>>> test (K=2, fname='yu',name='bg') 
Traceback (most recent call last): 

File "<pyshell#14>", line 1, in <module> 

test (K=2, fname='yu',name='bg') 

TypeError: test() missing 1 required positional argument: ‘'m' 
>>> 


请 比较 一 下 出 错 的 原因 。 

关于 函数 名 的 一 个 补充 : 函数 名 其 实 就 是 指向 一 个 函数 对 象 的 引用 ， 完 全 可 以 把 函数 
名 赋 给 一 个 变量 ， 相 当 于 给 这 个 函数 起 了 一 个 “别名 ”。 例 如 : 

2 # 变 量 a 指向 int 函数 

2 # 可 以 通过 a 调用 int 函数 

“本 


3.4 ”函数 式 编程 


3.4.1 lambda 


lambda 是 匿名 函数 ， 也 叫 行内 函数 。 
具体 用 法 如 下 : 
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人 lambda x : x+2 # 定 义 了 一 个 函数 f(x)=x+2 

g = lambda x,y : x+Y # 定 义 了 一 个 函数 f(x,y)=x+y 

lambda 只 是 一 个 表达 式 ， 函 数 体 比 def 简单 很 多 。lambda 表达 式 运行 起 来 像 一 个 函 
数 。 关 于 lambda 函数 的 用 途 有 两 点 说 明 。 

(1) 对 于 单行 函数 ， 使 用 lambda 可 以 省 去 定义 函数 的 过 程 ， 让 代码 更 加 精简 。 

(2) 在 非 多 次 调用 函数 的 情况 下 ，lambda 表达 式 即 用 即 得 ， 可 以 提高 性 能 。 
3 注意 : 。 如 果 是 for...in...if( 后 面 将 会 讲 到 ) 能 做 的 ， 最 好 不 要 选择 lambda。 


使 用 lambda 匿名 函数 的 例子 如 下 : 


>>> f£f = lambda x,y,Z:xt+yt+z 
A 

6 

>>> 


3.4.2 reduce() 


使 用 reduce(func0, Z)， 可 以 把 一 个 函数 作用 在 一 个 序列 上 累计 计算 。 其 效果 如 下 : 


reducetEr [rl RZ .or xd]) = F(t(E (RL KZ XA 4) 


Python 中 的 reduce 内 建 函 数 fbncO 是 一 个 二 元 操作 函数 ， 它 将 一 个 数据 集合 Z( 可 以 是 
列表 或 元 组 等 ) 中 的 所 有 数据 进行 下 列 操 作 : 用 函数 fancO 对 集合 Z 中 的 第 1、 第 2 个 数据 
进行 运算 ， 将 得 到 的 结果 再 与 Z 中 的 第 三 个 数据 运算 ， 以 此 循环 。 

例如 : 


from functools import reduce 
def add (x,y): 


return Xt 


sum=reduce (add, (1,2,3,4,5,6,7)) 

print (sum) 

执行 上 面 的 程序 ， 输 出 1+2+3+4+5+6+7 的 结果 即 28。reduce 就 是 将 add(x,y) 函 数 作用 
在 (1,2,3,4,5,6,7) 上 ， 即 : 1 赋 给 x，2 赋 给 y， 再 将 计算 结果 (1+2) 赋 给 x，3 赋 给 y; 再 次 将 
计算 结果 ((1+2)+3) 赋 给 x，4 赋 给 y， 依 此 类 推 。 

当然 ， 也 可 以 用 lambda 的 方法 ， 更 为 简单 : 


>>> from functools import reduce 
>>> sum=reduce (lambda x,y:xt+y, (1,2,3,4,5,6,7)) 
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>>> print (sum) 

28 

>>> 

reduce 在 Python 2.x 中 可 以 直接 用 ， 但 在 Python 3.0 以 后 ， 已 经 不 在 built-in function 
中 ， 要 使 用 它 就 必须 先导 入 : from functools import reduce。 


3.4.3 filter() 


filter0 用 于 过 滤 序 列 。filter0 接 收 一 个 函数 和 一 个 序列 ， 并 把 传 入 的 函数 依次 作用 于 每 
个 元 素 ， 然 后 根据 返回 值 True 或 者 False， 决 定 保留 还 是 丢弃 该 元 素 。 
例如 ， 在 一 个 list 中 ， 删 掉 偶数 ， 只 保留 奇数 ， 代 码 如 下 : 


>>> def ls oddt(tn}: 
return n 各 2 == 1 
>33 483iliter (Ls ooudr [LD 2Qy dr Sy Br dr Tr 15])) 
[Ey Sy 7 3] 
>>> 


再 如 把 一 个 序列 中 的 空 字符 串 删 掉 ， 代 码 如 下 : 


>>> def not empty(s): 


return s and s.strip!{) 


> Lost (filtern(not emptyr NOR 0 |) 
[A Ev MG | 
> 


可 见 ， 用 filter0 这 个 高 阶 函 数 时 ， 关 键 在 于 正确 地 实现 一 个 “筛选 ”函数 。 
filterO 函 数 还 可 以 实现 行 函数 功能 。 例 如 : 

> Dall For lin range (loloy Lit i> and kaa 

>>> BD 

[6 涪 

> 


用 filter0 函 数 改 写 如 下 : 


>>> b=filter(lambda x: x>5 and x<8, range(1,10)) 

> TLSt(D} 

[93 

>>> 

filter0 在 Python 2.7 中 直接 返回 一 个 列表 。 但 在 Python 3.x 中 ，filter0 是 一 个 容器 ， 返 
回 时 需要 用 list 调用 才 显 示 数 据 。 
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3.4.4 map() 


map(func，S) 将 传 入 的 函数 func 依次 作用 到 序列 $ 的 每 个 元 素 ， 并 把 结果 作为 新 的 序 
列 返 回 。 
函数 func 在 S 域 上 遍历 ， 在 Python 3.x 中 mapO 是 一 个 容器 ， 返 回 时 需要 用 list 调用 
才 显 示 数 据 ， 显 示 的 是 func 作用 后 的 结果 数据 。 
【 例 3-11】 比 较 map 和 filter: 
>>> et (map tlambda Xxex**2, [ly,2,31)) 
Ble7 349 
> St(ltidter(lanbda x x 2 L273])) 
Dl 2 
>>> 
说 明 : 。 map 返回 的 是 func 作用 后 的 结果 数据 ， 而 filter 是 通过 func 作用 筛选 出 作用 
域 的 数据 。map 还 可 以 接受 多 个 参数 的 函数 ， 例 如 : 
>>>° list (map(lambda eV Flr2,3], [45,61)) 


Sy TL2 Zl 
>>> 


map()、filter()、reduce() 三 个 函数 循环 要 比 for、while 循环 快 得 多 。 
3.4.5 行 函 数 


行 函数 也 叫 列表 解析 或 列表 推导 式 ， 格 式 如 下 : 


[<exprl> for an DT EeeXREE2] 


【 例 3-12】 将 列表 中 能 被 2 整除 的 元 素 提取 出 来 并 加 上 2: 


list=[1,2,3] 


A=[k+2 for kk in list df kk 2 == "0 
print (A) 

可 用 一 行 代码 实现 : 

>>> [K+2 For Kk 1 [Sr2r3] iE ES 2 ==°0)] 
[4] 

>>> 


列表 推导 式 (list comprehension) 是 利用 其 他 列表 创建 新 列表 (类 似 于 数学 术语 中 的 集合 
推导 式 ) 的 一 种 方法 。 它 的 工作 方式 类 似 于 for 循环 。 例 如 : 
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[xx FOr Xx En angetLld) 
EOr ye de Onlor 20% B67 49 :G4 584 
>>> 


如 果 只 想 打印 出 那些 能 被 3 整除 的 平方 数 ， 只 需要 通过 添加 一 个 if 部 分 在 推导 式 中 就 


可 以 完成 : 


六 
Lor 307 8 
>>> 


也 可 以 增加 更 多 的 for 语句 部 分 。 例 如 : 


> [| (Rey) for x ln rangelSy For yy ln mangeld)) 

OOP OI (ORI (On 2 CO GD (CI)r (2 O27 Tn (27 2)] 
>>> [XY for % in TangelZ} For Vv Tn anget2)] 

DEOP Ol7 LOE [Bol BEd 

>>> 


3.5 ”常用 的 内 置 函数 


前 面 已 经 介绍 过 dir、help、len、id、type、range 等 内 置 函数 ， 除 此 而 外 ， 常 见 的 内 置 


函数 还 有 sum、zip、enumerate、max、min 等 。 


3.5.1 sum 
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sum(s) 是 Python 中 一 个 很 实用 的 函数 ， 但 要 注意 参数 s 的 类 型 。 
例如 : 


> SUM 
Traceback (most recent call last): 
File "<pyshell#0>", line 1, in <module> 
s= sum(l,2,3) 
TypeError: sum expected at most 2 arguments, got 3 
>>> 


其 实 sum0 的 参数 是 一 个 list。 例 如 : 


>>> SUuml( [ly,2y3]) 

6 

>>> sum(range (1,11)) 
S53 

>>> 


第 3 章 流程 控制 及 函数 与 类 司 > 


sum 还 有 一 个 用 法 : 

>>> a = range(1,11) 

>>> b = range (1,10) 

>>> c = suml([item for item in a if item in b]) 
>>> PELNt(G) 

45 

>>> 


其 实 ，sum 的 参数 也 可 以 是 集合 、 元 组 ， 甚 至 可 以 是 字典 。 当 然 ， 其 计算 的 对 象 都 应 
该 是 数值 型 int。 例 如 : 


>>> a={r2y3) 
>>> sum(a) 


>>2 b= (lr 
>>> sum(b) 


人 
>>> sum(c) 对 字典 计算 的 是 键 key， 不 是 value 


>>> sum(c.values() ) 


>>> 


从 上 面 可 以 看 出 ， 对 字典 用 sum 计算 的 是 key， 而 不 是 value。 计 算 value 值 时 ， 使 用 
字典 对 象 的 属性 values0。 


3.5.2 Zip 


zip(t,s) 返 回 t 和 s 的 一 个 相互 匹配 的 列表 。 例 如 : 


>>> t='abc' 

22> Se[Lr273] 

>>> z=zip(t,s) 

<ZiP object at Ox04104A08> 
说- 尺 t 开 久久 

Drany Ty Dr 2 3) 
>>> 


若 长 度 不 够 ， 以 最 短 的 为 主 。 例 如 : 


iS" aBed" ,123") 
<zip object at 0x041049E0> 
>> > Strabo 2 
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[全 


>>> 
这 类 似 于 元 组 里 说 的 解 包 。 
再 如 : 

3] 


2 6] 

9 

大 ZX VM) 

天 六 过 本 站 是 三 证 过 二 人 YYZ》 

>>>° DELnE(LLiSt (tu)) 

RLF 27 YD (dy Sr GI (CPEy BR 9 

>>> 

一 般 认为 * 是 一 个 unzip 的 过 程 ， 它 的 运行 机 制 如 下 。 

在 运行 zip(*xyz) 之 前 ，xyz 的 值 是 [(1, 4, 7), (2, 5，8), (3, 6, 9)]， 那 么 zip(*xyz) 等 价 于 


Zip((1, 4, 7), (2, 5, 8), (3, 6, 9))， 所 以 运行 结果 是 [(1, 2, 3), (4, 5, 6), (7, 8, 9)]。 
试 试 下 面 的 练习 : 


深交 SR 

Sr a 

>>> plntelletG(tryy 

DOE lr (Or 2 2)7 (97 37 3 

>>> 

上 面 的 代码 运行 机 制 是 这 样 的 : 

e@ 。 [x] 生 成 一 个 元 素 的 列表 ， 它 只 有 一 个 元 素 x 一 一 列表 。 
Md [x] a 生成 一 个 列表 ， 它 有 3 个 元 素 [x， X,， x]。 

@ zip(* [x] * 3) 的 意思 就 明确 了 ，zip(x, x, x)。 

dict 和 zip 可 以 组 合 使 用 ， 生 成 字典 。 例 如 : 


>>> d= dict (zip("abe”, rangel(L,A4))) 
> 

Te os a 

>>> 


3.5.3 enumerate 


enumerate(t) 返 回 t 的 index 和 元 素 对 ，t 可 以 是 字符 串 、 列 表 、 元 组 、 字 典 等 ， 若 是 字 
典 ， 则 返回 的 是 键 名 。 例 如 : 


.so 
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> nl Sy oo 
> fOr lik in enumerate(t): 


BrLrnit (Lk 


QEst 

1 third 

2 second 
>>> 


3.5.4 max 和 min 


max() 和 ming0 的 参数 同 sum0， 可 以 是 列表 、 元 组 、 人 集合、 字典 ， 甚 至 可 以 是 
range()。 

当然 ， 字 典 默 认 的 是 针对 key， 若 需要 对 value 进行 计算 ， 则 需要 使 用 .values(0) 方 法 。 

例如 : 

> a 

>>> max (a) 

5 


>>> min(a.values ()) 
学 


> 
>>> min (B) 

2 
>>> 


当 key 不 是 数值 型 时 ， 比 较 的 是 key 的 ASCII 码 。 
3.5.5 eval 


eval0 将 字符 串 str 当成 有 效 的 表达 式 来 求 值 ， 并 返回 计算 结果 。 例 如 : 


>>>x = 1 

>>>eval('x+1'") 

2 

>>>a = Ww[[Tr2] LS LS5r6], [7r8], L9,0]1"# 注 意 人 a 是 字符 串 


>>>b = eval (a) 

>>>b 

CEL 2 [ml Do ol 0 0 
>>>type (b) 

lg 
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>>>c = "{1: 'a'，2:; 'b'}" # 注 意 c 是 字符 串 


>>>d = eval (c) 


>>>d 
Tay 
>>>type (d) 
diet 
> = ME Sd rel Ld OT 
>>>f = eval (e) 
> 
Gh lS ol Ly/ ol (0 
>>> 
但 下 面 的 代码 存在 很 大 的 风险 : 
>>> Mimore (os ee Svastem( dir SQAiretxt") 
0 


>>> pennl dir trxt) read() 


， 驱动 器 D 中 的 卷 是 soft\n 卷 的 序列 号 是 0046-527B\n\n D:\\python35 的 目录 


MnNNn2016-08~-13 ‘01:19 <DIR> "nn20P6=00713 OFS19 

<DIR> Nn20lo 06521 22s51 406 0.py\n2016-08-13 

OT" 19 0 dir.txt\n2016-06-~15 22:07 <DIR> 

DLLs\n2016-06-15 22:07 <DIR> Doc\n2016=06=15 22:06 <DIR> 
include\n2016-06-15 22:07 <DIR> Lib\n2016-06-15 22:07 <DIR> 
LibasNn20L6512=07 9 19356 S0338 LICENSE. ExtNn20L5= 12-06°06:32 
310,468 NEWS.txt\n2015-12-06 01:40 38,680 python.exe\n2015-12- 
(6° O039 51,480 python3.dIl\n2015-12=06 ‘01:39 3 L227968 
python35.dl1\n2015-12-06 01*40 38,680 pythonw.exe\n2015-11-22 
225158 8,269 README .txt\n2016-06-15 22:08 <DIR> 
SOriptesM\n20Lo 0 To 2208 <DIR> COLMN20L6 6 20 ls3 

317 test.pyYMNMn2016~06=25, TI1*:37 317 testl1.py\n2016-06-25 

T8359 150 TestClass.py\n2016-06-15 22:07 «DIR> 
Tools\n2015=06-25 23234 85,328 vcruntime140.dl1\n2016-06-25 
11:38 <DIR> _ pycache _\n 43 站 忆 件 3,687,401 字 节 
\n 11 个 目录 35,201,863,680 可 用 字 节 \n' 

>>> 


执行 上 面 的 两 句 代码 ， 其 实 就 已 经 在 Python 3.x 安装 目录 下 建立 了 一 个 名 为 dir.txt 的 


文件 。 如 车 再 运行 下 面 这 两 句 代 码 ， 则 可 以 将 新 建 的 dir.txt 文件 删除 ! 
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>>> import os # 导 入 os 模块 

>>> os.system('del dir.txt /q') 
0 

>>> 


上 面 新 建 的 dir.txt 文件 已 经 被 删除 了 ! 也 就 是 说 ， 这 两 句 代 码 可 以 删除 本 台 计 算 机 上 
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的 任何 文件 ! 
下 面 的 代码 请 自行 测试 : 
>>>eval(” mport (os SYSEem (IE md c:\\testtest"')})") 
>>>eval(" jimport {"'o08").system(r’'rd/s/q ec:\\testtest")") 
>>>eval(" import ('o0os').startfile(r'c:\windows\\notepad.exe"')") 
>> 


3.5.6 ”判断 函数 


下 面 这 几 个 函数 常用 于 判断 。 

(1) in: 常用 于 字符 串 、 列 表 、 元 组 、 字 典 、 集 合 中 ， 用 来 判断 一 个 字符 串 或 者 一 个 
元 素 是 否 属于 字符 串 或 者 列表 等 。 同 样 ， 对 应 的 还 有 not in。 

例如 : 


>SSa(ta 2 Eee 
>>>'a' in a 

True 

20 Tob dna 

False 

>>> 


(2) startswithO、endswithO: 做 文本 人 处理 时 ， 用 来 判断 字符 串 开始 和 结束 的 位 置 。 
基本 格式 如 下 : 


SStartswitil(pretixlre gtarEly sndldl) 
S.endswith (suffix[, start[, end]]) 


示例 代码 如 下 : 


>>>7fiol otartswitl 0 ti 

True 

>>>"fish".startswith('fi',1) # 此 处 的 1 表示 从 索引 位 置 1 开始 
False 

>>> "fish".endswith('sh') 

True 

>>> "fish"sendswith(sh 3) 

False 

>>> 


Python 的 这 两 个 函数 有 个 特别 的 地 方 一 一 它 的 prefix 和 suffix 参数 不 仅 可 以 是 字符 
串 ， 还 都 可 以 是 一 个 元 组 。 只 要 其 中 一 个 成 立 ， 就 返回 True， 也 就 是 一 种 “或 ”的 关系 。 
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件 。 


例如 : 
iLenameaendswitlh tm 全 二 全 站 可 让 站 二 和 在 
print ("%s 是 一 个 图 片 文件 " %filename) 
上 面 两 行 代码 根据 文件 扩展 名 是 否 是 gif、jpg 或 tiff 之 一 来 确定 文件 是 不 是 图 片 文 
这 个 代码 也 可 以 写成 : 


if filename.endswith(".gif") or filename.endswith(".jpg") or \ # 续 行 
filename.endswith(".tiff"): 
print ("%s 是 一 个 图 片 文件 "%$filename) 
不 过 ， 这 样 比较 麻烦 。 值 得 注意 的 是 ， 别 忘 了 元 组 的 括号。 
(3) isalnum0: 检测 字符 串 是 否 仅 由 字母 和 数字 组 成 ， 若 其 间 夹 杂 有 空格 、 标 点 符号 


或 者 其 他 字符 ， 则 都 返回 False。 例 如 : 


>>>str = "this2009" 

>>>print (str.isalnum()) 

True 

>>>str = "this is string example... .wow!!!™" 


>>>print (str.isalnum!()) 
False 

>>>strl = "hello" 
>>>print (strl.isalnum()) 
True 

>>> 


(4) isaipha0: 检测 字符 串 是 否 只 由 字母 组 成 。 如 果 字 符 串 中 的 所 有 字符 都 是 字母 ， 


则 返回 True， 否 则 返回 False。 例 如 : 


St TS 

>>>print (str.isalpha ()) 

True 

>>>str = "this is string example....wow!!!" 
SS>print (str. Loalphnal()) 

False 

>>> 


(5) isdigit0: 检查 字符 串 是 否 只 包含 数字 (全 由 数字 组 成 )。 如 果 字 符 串 中 的 所 有 字符 


都 是 数字 ， 则 返回 True， 和 否则 返回 False。 例 如 : 
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>>>Str = "123456% 

2pPILint(tstr Todidlrt ()) 

True 

>>>str = "this is string example....wow!!!" 


>>>printilstre isdlidgqlit()) 
False 
> 


其 他 内 置 函 数 见 表 3-2。 


内 置 函 数 


abs(x) 


divmod(a, b) 


int([x[, base]]) 

pow(x, y[, z]) 
range([start], stop[, step]) 
round(x[, n]) 
sum(iterable[, start]) 
chr() 

bin(x) 


format(value [, format spec]) 


enumerate(sequence [, start = 0]) 
max(iterable[, args...][key]) 
min(iterable[, args...][key]) 

dict([arg]) 

list([iterable]) 

set() 

str([object]) 

sorted(iterable[, cmp[, key[, reverse]]]) 
tuple([iterable]) 


dir([object]) 
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表 3-2 其 他 内 置 函 数 


说 明 
求 绝 对 值 
@ 参数 可 以 是 整 型 ， 也 可 以 是 复数 
@ 若 参 数 是 复数 ， 则 返回 复数 的 模 
分 别 取 ab 的 商 和 余数 
注意 : 整 型 、 浮 点 型 都 可 以 
将 一 个 字符 转换 为 int 类 型 ，base 表示 进 制 
返回 x 的 y 次 寡 
产生 一 个 序列 ， 默 认 从 0 开始 
四 售 五 入 
对 集合 求 和 
返回 整数 i 对 应 的 ASCII 字符 
将 整数 x 转换 为 二 进 制 字符 串 
格式 化 输出 字符 串 
格式 化 的 参数 顺序 从 0 开始， 如 “Iam {0},Ilike {1}” 
返回 一 个 可 枚 举 的 对 象 ， 其 next0 方 法 将 返回 一 个 tuple 
返回 集合 中 的 最 大 值 
返回 集合 中 的 最 小 值 
创建 数据 字典 
将 一 个 集合 类 转换 为 另外 一 个 集合 类 
set 对 象 实例 化 
转换 为 string 类 型 
对 集合 列表 排序 ， 不 对 原 集合 列表 排序 ， 返 回 新 的 集合 列表 
生成 一 个 tuple 类 型 
G@ 不 带 参 数 时 ， 返 回 当 前 范围 内 的 变量 、 方 法 和 定义 的 类 
型 列表 
@) 带 参 数 时 ， 返 回 参 数 的 属性 、 方 法 列表 
@@ 当 参 数 为 实例 时 ， 如 果 参 数 包含 方法 _dir 0， 该 方法 
将 被 调用 
@ 如 果 参 数 不 包 含 _dir (0)， 该 方法 将 最 大 限度 地 收集 参 
数 信息 
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内 置 浮 数 
eval(expression [, globals [, locals]]) 
id(object) 
len(s) 
locals() 


map(function, iterable, ...) 


next(iterator[, default]) 
reduce(function, iterable[, initializer]) 


type(object) 
zip([iterable, ...]) 


file(filename [, mode [, bufsize]]) 


input([prompt]) 
open(name[, mode[, buffering]]) 


print() 


3.6 


续 表 
说 明 
计算 表达 式 expression 的 值 
返回 对 象 的 唯一 标识 
返回 集合 长 度 
返回 当前 的 变量 列表 
遍历 每 个 元 素 ， 执 行 function 操作 
类 似 于 iterator.nextO) 


合并 操作 ， 从 第 一 个 开始 是 前 两 个 参数 ， 然 后 是 前 两 个 的 结 
果 与 第 三 个 合并 进行 处 理 ， 以 此 类 推 

返回 该 object 的 类 型 

矩阵 变幻 处 理 

file 类 型 的 构造 函数 ， 作 用 为 打开 一 个 文件 ， 如 果 文 件 不 存 
在 且 mode 为 写 或 追加 时 ， 文 件 将 被 创建 。 添 加 ?b "到 mode 
参数 中 ， 将 对 文件 以 二 进 制 形式 操作 。 添 加 ‘+’ 到 mode 参数 
中 ， 将 允许 对 文件 同时 进行 读 写 操作 

GD 参数 filename: 文件 名 称 

@) 参数 mode: “( 读 )、“w:( 写 )、'a"( 追 加 ) 

@ 参数 bufsize: 如 果 为 0， 表示 不 进行 缓冲 ;如果 为 1， 表 
示 进 行 缓冲， 如 果 是 一 个 大 于 1 的 数 ， 表 示 绥 冲 区 的 大 小 
获取 用 户 输入 ， 返 回 的 结果 是 字符 型 

打开 文件 

思考 与 file 有 什么 不 同 ? 推荐 使 用 open 

打印 函数 


常见 的 错误 显示 


Python 程序 常见 的 异常 见 表 3-3。 


异 常 描 述 
NameError 尝试 访问 一 个 没有 声明 的 变量 
SyntaxError 语法 错误 
ZeroDivisionError 除数 为 0 
IndexError 索引 超出 序列 范围 
KeyError 请 求 一 个 不 存在 的 字典 关键 字 
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续 表 
异 常 描 述 
IOError 输入 输出 错误 (比如 要 读 的 文件 不 存在 ) 
AttributeError 尝试 访问 未 知 的 对 象 属性 
IndentationError 冒号 换行 后 没有 缩 进 
ValueError 传 给 函数 的 参数 类 型 不 正确 ， 比 如 给 int0 函 数 传 入 字符 串 型 
一 个 常见 错误 的 例子 : 
while 1: 
1 
Rr Tnt(input( i Noe Ls Sy 
> = int(input('No.2; ")) 
r= x/y 
print (rr) 


except (Exception) as e: 
print (e) 
print('again') 

else: 
break 


File "<ipython-input-15-6f26b9b9c36e>", line 3 
人 


人 


IndentationError: expected an indented block 


上 面 的 错误 是 因为 try 行 后 有 冒号 ， 下 一 行 代码 应 该 有 缩 进 ， 包 括 后 面 的 儿 行 都 应 该 
缩 进 。 


3.6.1 常见 的 错误 类 型 


(1) NameError: 尝试 访问 一 个 未 声明 的 变量 。 例 如 : 


> 
Traceback (most recent call last): 
File "<pyshell#0>", line 1, in <module> 
V 
NameError: name 'v' is not defined 
>>> 


(2) ZeroDivisionError: 除数 为 0。 例 如 : 
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>>> 3 = /0 
Traceback (most recent call last): 
File "<pyshell#1>", line 1, in <module> 
v= 1/0 
ZeroDivisionError: division by zero 
>>> 


(3) SyntaxError: 语法 错误 。 例 如 : 


>>> int 4 
SyntaxError: invalid syntax 
>>> 


(4) IndexError: 索引 超出 范围 。 例 如 : 


ee | es | 
| 
Traceback (most recent call last): 
File "<pyshell#4>", line 1, in <module> 
出 总攻 下 ES 村 


IndexError: list index out of range 


>>> 
(5) KeyError: 字典 关键 字 不 存在 。 例 如 : 
> Si 


3 
Traceback (most recent call last): 
File "<pyshell#6>", line 1, in <module> 
Bicet 3 
KevErrors 3. 
>>> 


(6) AttributeError: 访问 未 知 对 象 属性 。 例 如 : 


>> Str= 23 
>>> str.append() 
Traceback (most recent call last): 
File "<pyshell#9>", line 1, in <module> 
str.append() 
AttributeError: 'str' object has no attribute '‘'append' 
学 六 六 


(7) ValueError: 数值 错误 。 例 如 : 


dd Ms BY | 
Traceback (most recent call last): 
File "<pyshell#10>", line 1, in <module> 


.sa 
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ValueError: invalid literal for int() with base 10: 'd"' 
>>> 


(8) TypeError: 类 型 错误 。 例 如 : 


> 
Traceback (most recent call last): 
File "<pyshell#11>", line 1, in <module> 
print (lh23 Lt4D) 
Typeprrors Carnvt ConNnTert Minte opBjeot to Str TMmLIGLICEY 
>> 


3.6.2 ”初学 者 常 犯 的 错误 


初学 Python 时 ， 想 要 彻底 弄 懂 Python 错误 信息 的 含义 可 能 有 点 不 容易 ， 下 面 列 出 了 
程序 运行 时 出 现 的 一 些 常见 异常 ， 这 些 异 常 也 是 新 手 常 犯 的 错误 。 

(1) 态 记 在 if、elif、else、for、while、class、def 等 末尾 添加 冒号 (:)， 导 致 出 现 了 
“SyntaxError: invalid syntax” 错 误 。 

该 错误 将 发 生 在 类 似 如 下 的 代码 中 : 


if spam == 42 
print ("HellLorl,) 


(2) 使 用 = 而 不 是 = 一， 导致 出 现 了 “SyntaxError: invalid syntax” 错 误 。 
= 是 赋值 操作 符 而 一 是 等 于 比较 操作 。 该 错误 发 生 在 类 似 如 下 的 代码 中 : 
if spam = 42: 
print ('Hello!') 
(3) 错误 地 使 用 了 缩 进 量 ， 导 致 出 现 了 “IndentationError: unexpected indent”、 
“IndentationError: unindent does not match any outer indetation level” 以 及 “IndentationError: 
expected an indented block” 错 误 。 记 住 缩 进 只 用 在 以 “:” 结 束 的 语句 之 后 ， 而 之 后 必须 恢 
复 到 之 前 的 缩 进 格式 ， 缩 进 是 四 个 空格 。 该 错误 发 生 在 类 似 如 下 的 代码 中 : 
print ('Hello!') 
print ('Howdy!') 
或 者 : 


if spam == 42: 
print('Hello!') 
print('Howdy!') 
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或 者 : 


if spam == 42: 
print CHellot”) 


缩 进 一 定 要 按 层次 缩 进 ， 尽 管 Python 3.5 己 经 做 了 很 多 优化 ， 如 “:” 后 换行 有 时 候 可 
以 只 空 一 个 空格 ， 也 能 执行 ， 但 为 了 保持 代码 的 可 读 性 ， 还 是 应 尽 可 能 地 空 四 格 ， 以 养 成 
良好 的 编写 代码 习惯 。 

(4) 在 for 循环 语句 中 态 记 调用 len()， 导 致 出 现 了 “TypeError: “list” object cannot be 
interpreted as an integer” 错 误 。 

通常 想 要 通过 索引 来 迭代 一 个 list 或 者 string 的 元 素 时 ， 需 要 调用 range0 函 数 。 要 返 
回 len 值 而 不 是 返回 这 个 列表 。 该 错误 发 生 在 类 似 如 下 的 代码 中 : 


[or 
for i in range (spam): 


print (spam[i]) 


(5) 尝试 修改 string 的 值 ， 导 致 出 现 了 “TypeError:“str” object does not support item 
assignment” 错 误 。 
string 是 一 种 不 可 变 的 数据 类 型 ， 该 错误 发 生 在 类 似 如 下 的 代码 中 : 


Spam = 'I have a Pet cat.' 


spam[13] = 'r"' 


而 实际 想 要 这 样 做 : 


Spam = 'I have a pet cat.' 
spam = spam[:13] + 'r' + spam[14:] 


(6) 尝试 连接 非 字 符 串 值 与 字符 串 ， 导 致 出 现 了 “TypeError: Can’t convert ‘int” object 
to str implicitly” 错 误 。 
该 错误 发 生 在 类 似 如 下 的 代码 中 : 


numEggs = 12 
PE LI have + numEggs + ， eggs.") 


而 实际 想 要 这 样 做 : 


numEggs = 12 
print('I have ' + str(numEggs) + ' eggs.') 


或 者 : 


numEggs = 12 
print('I have %s eggs.' $ (numEggs)) 
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(7) 在 字符 串 首尾 忘记 加 引号 ， 导 致 出 现 了 “SyntaxError: EOL while scanning string 
literal ”错误 。 
该 错误 发 生 在 类 似 如 下 的 代码 中 : 


print (Hello!') 


或 者 : 

print('Hello!) 

或 者 : 

myName = 'Al' 

print('My name is ' + myName + . How are you?') 


(8) 变量 或 者 函数 名 拼写 错误 ， 导 致 出 现 了 “NameError: name ‘fooba’ is not defined” 
错误 。 
该 错误 发 生 在 类 似 如 下 的 代码 中 : 


foobar = '"'Al' 

print('My name is "” + fooba) 
或 者 

spam = ruond(4.2) 

或 者 


spam = Round(4.2) 


(9) 方法 名 拼写 错误 ， 导 致 出 现 了 “ AttributeError: “str” object has no attribute 
‘lowerr”” 错 误 。 该 错误 发 生 在 类 似 如 下 的 代码 中 : 


spam = "THIS IS IN LOWERCASE.' 


spam = spam.lowerr() 


(10) 引用 超过 了 list 的 最 大 索引 ， 导 致 出 现 了 “IndexError: list index out of range” 错 
误 。 该 错误 发 生 在 类 似 如 下 的 代码 中 : 


Spam = [Neatc rp Tdog's EUSeS 


print (spam[6]) 


(11) 使 用 不 存在 的 字典 键 值 ， 导 致 出 现 了 “KeyError: ‘spam” ”错误 。 
该 错误 发 生 在 类 似 如 下 的 代码 中 : 


Spam = cat yophie ny dog rr, VBasil’, “mouse. “Whileskers 


print('The name of my Pet zebra is '+ spam['zebra']) 
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(12) 尝试 使 用 Python 关键 字 作 为 变量 名 ， 导 致 出 现 了 “SyntaxError: invalid syntax” 错 


。Python 关键 字 不 能 用 作 变 量 名 ， 该 错误 发 生 在 类 似 如 下 的 代码 中 : 


class = 'algebra' 


Python 3.x 的 关键 字 有 and、as、assert、break、class、continue、def、del、elif、else、 


except、 False、finally、for、from、global、if、import、in、is、lambda、None、nonlocal、 


not、 


or、 pass、 raise、return、True、try、while、with、yield。 


(13) 尝试 使 用 range0 创 建 整数 列表 ， 导 致 出 现 了 “TypeEtrror: ‘range” object does not 


support item assignment” 和 错误 。 


而 ， 


有 时 想 要 得 到 一 个 有 序 的 整数 列表 ， 所 以 range0 看 上 去 是 生成 此 列表 的 不 错 方式 。 然 
range() 返 回 的 是 range 对 象 ， 而 不 是 实际 的 list 值 。 
该 错误 发 生 在 类 似 如 下 的 代码 中 : 


spam = range (10) 
spam[4] = -1 


而 实际 想 要 这 样 做 : 


spam = list(range (10)) 
spam[4] = -1 


应 注意 : 在 Python 2.7 中 ，spam = range(10) 是 可 行 的 ， 因 为 在 Python 2.7 中 rangeO 


返回 的 是 list 值 ， 但 是 在 Python 3.x 中 会 产生 以 上 错误 。 


(14) 错误 地 使 用 了 ++( 自 增 ) 或 --( 自 减 ) 运 算 符 ， 导 致 出 现 了 “SyntaxError: invalid 


syntax” 错 误 。 


如 果 习 惯 于 使 用 C++、Java、PHP 等 其 他 的 语言 ， 也 许 会 想 要 尝试 使 用 +( 自 增 ) 或 一 


( 自 减 ) 一 个 变量 。 而 在 Python 中 ， 却 并 没有 这 样 的 操作 符 。 


该 错误 发 生 在 类 似 如 下 的 代码 中 : 


spam = 1 
spamt++ 


而 真正 想 要 做 的 是 : 


spam = 1 


spam += 1 


(15) 类 中 态 记 为 方法 的 第 一 个 参数 添加 self 参数 ， 导 致 出 现 了 “TypeError: myMethod() 


takes no arguments (1 given)” 错 误 。 


.1e2\， 


该 错误 发 生 在 类 似 如 下 的 代码 中 : 
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class Foo(): 
def myMethod(): 
Print( Helo 


a = Foo() 
myMethod () 


而 实际 上 应 该 这 样 做 : 


Class EOOU): 
def myMethod (self): 
Brint ( Hele ly 


a = Foo() 
a.myMethod () 


3.6.3 try 


在 Python 中 ，try-except 语句 主要 用 于 处 理 程序 正常 执行 过 程 中 出 现 的 一 些 异 常情 
况 ， 如 语法 错误 、 数 据 除 零 错误 、 从 未 定义 的 变量 上 取 值 等 ， 而 try-finally 语句 则 主要 用 
于 监控 错误 的 环节 。 
尽管 try-except 和 try-finally 的 作用 不 同 ， 但 是 在 编程 实践 中 通常 可 以 把 它们 组 合 在 一 
起 使 用 ， 以 try-except-else-finally 的 形式 来 实现 稳定 性 和 灵活 性 更 好 的 设计 。 
Python 中 ，try-except-else-finally 语句 的 完整 格式 如 下 : 
hh Ge 
Normal execution block 
except A: 
Exception A handle 
except B: 
Exception B handle 
excCept: 
Other exception handle 
else: # 可 无 ， 若 有 必 有 except x 或 except 存在 ， 仅 在 tzy 后 无 异常 时 执行 
if no exception, get here 
finally: ”# 此 语句 务必 放 在 最 后 ， 并 且 也 是 必须 执行 的 语句 
Print Ou fn all 
说 明 : 正常 执行 的 程序 在 try 下 的 Normal execution block 块 中 执行 ， 在 执行 过 程 中 ， 
如 果 发 生 了 异常 ， 则 中 断 当 前 在 Normal execution block 中 的 执行 ， 跳 转 到 对 应 的 异常 处 理 
块 except x(A 或 B) 中 开始 执行 ，Python 从 第 一 个 except x 处 开始 查找 ， 如 果 找 到 了 对 应 的 
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exception 类 型 ， 则 进入 其 提供 的 exception handle 中 进行 处 理 ， 如 果 没 有 ， 则 依次 进入 第 
二 个 ， 如 果 都 没有 找到 ， 则 直接 进入 except 块 进行 处 理 。except 块 是 可 选项 ， 如 果 没 有 提 
供 ， 该 exception 将 会 被 提交 给 Python 进行 默认 处 理 ， 处 理 方 式 则 是 终止 应 用 程序 并 打印 
提示 信息 。 

如 果 在 Normal execution block 执行 块 的 执行 过 程 中 没有 发 生 任何 异常 ， 则 在 执行 完 
Normal execution block 后 ， 会 进入 else 执行 块 中 ( 知 存 在 ) 执 行 。 

无 论 发 生 异 常 与 否 ， 若 有 finally 语句 ， 以 上 try-except-else 代码 块 执行 的 最 后 一 步 总 
是 执行 fnally 所 对 应 的 代码 块 。 

需要 注意 如 下 几 个 问题 。 

(1) 在 上 面 所 示 的 完整 语句 中 ，try-except-else-finally 所 出 现 的 顺序 必须 是 try 一 except 
x 一 except 一 else 一 finally， 即 所 有 的 except 必须 在 else 和 finally 之 前 ，else( 知 有 ) 必 须 在 
finally 之 前 ， 而 except x 必须 在 except 之 前 。 否 则 会 出 现 语法 错误 。 

(2) 对 于 上 面 所 展示 的 try-except 完整 格式 而 言 ，else 和 finally 都 是 可 选 的 ， 而 不 是 
必需 的 。 但 若 存 在 else， 则 必须 放 在 finally 之 前 ，finally( 如 果 存 在 ) 必 须 放 在 整个 语句 的 最 
后 位 置 。 

(3) 在 上 面 的 完整 语句 中 ，else 语句 的 存在 必须 以 except x 或 者 except 语句 为 前 提 ， 
如 果 在 没有 except 语句 的 try block 中 使 用 else 语句 ， 会 引发 语法 错误 。 即 else 不 能 仅 与 
try-finally 配合 使 用 。 

【 例 3-13】 一 个 try-except-else 的 例子 : 


while 1: 
长 YY 
nt de 
w= ne(inpDuto No 2 
r= XxX/y 
print(e) 
except (Exception) as e: }# 不 管 什么 异常 ， 都 捕获 给 e 
print (e) 


print('again') 
else: 


break 


这 段 代 码 的 意思 是 : 从 键盘 接收 两 个 输入 (数字 或 者 字符 )， 转 化 为 数字 型 做 除法 ， 如 
果 符 合 除法 规则 ， 就 输出 结果 ， 并 跳 转 执行 else 语句 ， 如 果 不 符合 ， 有 错误 ， 则 进入 
except 语句 ， 打 印 错误 原因 ， 并 重新 来 一 次 。 
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看 下 面 的 输入 和 输出 结果 : 
nie 
No.2: 0 


division by zero 


again 


Nol 
No.2: a 
invalid literal for int() with base 10: 'a' 


again 


Nol 
NOSZ3 2 
ee 


final 放 在 try 的 最 后 ， 不 管 前 面 发 生 了 什么 ，final 后 面 的 语句 均 执行 。 
3.6.4 assert 


assert 是 断言 的 关键 字 。 执 行 该 语句 时 ， 先 判断 表达 式 expression， 如 果 表 达 式 为 真 ， 
则 什么 都 不 做 ， 如 果 表 达 式 为 假 ， 则 抛 出 异常 。 例 如 : 


>>> assert len('love') == len('like') 
>>> assert len('love u') == len('like') 
Traceback (most recent call last): 
File "<pyshell#15>", line 1, in <module> 
assert len('love u') == len('like') 
AssertionError 
>>> 


可 以 看 出 ， 如 果 assert 后 面 的 表达 式 为 真 ， 则 什么 都 不 做 ， 如 果 为 假 ， 就 会 抛 出 
AssertionError 异常 。 


3.6.5 raise 


当 程 序 出 现 错误 时 ，Python 会 自动 引发 异常 ， 也 可 以 通过 raise 显 式 地 引发 异常 。 一 
旦 执行 了 raise 语句 ，raise 后 面 的 语句 将 不 能 执行 。 

下 面 演 示 raise 的 用 法 : 

try: 


Ss = None 


if s is None: 
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print ("s 是 空 对 象 ") 
raise NameError # 如 果 有 NameError 异常 ， 后 面 代码 都 将 不 执行 
print (len(s)) 
except TypeError: 
print (" 空 对 象 没 有 长 度 ") 
执行 结果 : 
s 是 空 对 象 


Traceback (most recent call last): 


File "<ipython-input-18-c87e44fl8de5>", line 5, in <module> 
raise NameError # 如 果 有 NameError 异常 ， 后 面 代码 都 将 不 执行 


NameError 


3.7 ”模块 和 包 


先 来 看 一 个 例子 : 


六 这 之 sll 2364L8. I = .238+ 二 8 
>>> sum(a) 

0.0 

>>> 


怎么 会 是 0? 再 执行 下 面 的 代码 : 

>>> import math 

>>> math.fsum(a) 

0 

>>> 

这 就 对 了 ! 

计算 机 由 于 浮 点 数 的 运算 问题 ， 会 导致 上 面 的 结果 有 差异 。 但 是 我 们 引入 一 个 math 
后 ， 计 算 结 果 就 正常 了 。 


3.7.1 模块 (module) 


模块 是 包含 函数 和 其 他 语句 的 Python 脚本 文件 ， 它 以 “.py” 为 后 缀 名 ， 即 用 Python 
脚本 的 后 级 名 。 表 现形 式 为 : 编写 的 代码 保存 为 文件 ， 这 个 文件 就 是 一 个 模块 ， 如 
sample.py， 其 中 ， 文 件 名 sample 为 模块 名 称 。 

在 Python 中 可 以 通过 导入 模块 ， 然 后 使 用 其 模块 中 提供 的 函数 或 者 数据 。 关 于 模块 的 
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导入 方法 ， 这 里 以 math 模块 为 例 : 

@ import math: 导入 math 模块 。 

@ import math as m: 导入 math 模块 并 取 个 别名 为 m。 

@ from math import exp as e: 导入 math 库 中 的 exp 函数 并 取 别 名 为 e。 

要 想 使 用 import 导入 的 模块 中 的 函数 ， 则 必须 以 “模块 名 .函数 名 ”的 形式 调用 函数 ; 
而 from 是 将 模块 中 某 个 函数 而 不 是 整个 模块 导入 ， 所 以 使 用 from 导入 的 模块 中 的 某 个 函 
数 ， 可 以 直接 以 函数 名 调用 ， 不 必 在 前 面 加 上 模块 名 称 。 例 如 : 

>>> import math as m # 给 math 模块 取 个 别名 m， 使 用 时 用 m 替代 math 


>>> a=[1.23e+18,;, 1, -1.23e+18] 
>>> m.fsum(a) 


>>> from math import fsum # 这 里 仅 导 入 了 math 模块 中 的 fsum 函数 
>>> a=[1 .23e+18 i1, =1.23e+18] 
>>> fsum(a) # 直 接 使 用 fsum () 函数 ， 不 再 使 用 math .fsum() 


>>> 


以 from 导入 模块 中 的 函数 后 ， 使 用 模块 中 的 函数 会 方便 很 多 ， 不 再 使 用 模块 名 。 如 
果 要 想 将 多 个 模块 中 的 所 有 函数 都 采用 这 种 方式 导入 ， 则 可 以 在 from 中 使 用 “*” 通 配 
符 ， 表 示 导 入 模块 中 的 所 有 函数 ， 但 一 般 不 这 么 用 。 如 下 所 示 : 


>>> from math import sqrt # 仅 导入 了 sqrt 函数 
>>> sqrt(4) 
2 
>>> cos (4) # 仅 导入 了 sqrt 函数 ， 所 以 cos 函数 不 能 用 
Traceback (most recent call last): 

File “<pyshell#13>", line 1, in <module> 

cos (4) 

NameError: name "cos' is not defined 
>>> from math import *  # 将 math 中 的 所 有 函数 全 部 导入 
>>> sqrt (4) 
人 20 
>>> cos (4) 
=0.6536436208636119 
2 


为 了 确保 在 Python 2.1 之 前 版 本 的 Python 中 可 以 正常 运行 一 些 新 的 语言 特性 ， 需 要 导 
入 一 个 包 : ffom ”future 。 import *。 模 块 就 是 一 个 扩展 名 为 .py 的 程序 文件 。 我 们 可 以 直 
接 引 用 它 ， 节 省 时 间 和 精力 ， 无 须 重复 写 同样 的 代码 。 这 也 表明 Python 是 开源 的 ， 符 合 
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“他 山 之 石 可 以 攻 玉 ”的 思想 。 
我 们 试 着 写 一 个 模块 ， 保 存 为 .py 文件 ， 并 调用 ! 
新 建 一 个 addyu.py 文件 ， 内 容 如 下 : 
#addyu.py 


def add(a=0,b=0): 


此 函数 是 计算 两 个 数 的 和 
当 不 输入 参数 时 ， 默 认 的 是 0+0 


rr 
c=a+b 
print(c) 

def test(m,K=0,*tup,**dic): 
Drm (Sy) 
Print (LR RK 
print (Eup stp 
Drint tlEos te 
return 


在 下 面 的 test_addyu.py 文件 中 调用 addyu.py 内 的 add(a,b) 函 数 。test_ addyu.py 文件 的 
代码 如 下 : 


#test addyu.py 

from addyu import add 

a=add (1,2) 

这 里 要 注意 addyu.py 保存 的 位 置 。 为 了 让 Python 解释 器 能 直接 import 默认 安装 路 径 
以 外 的 第 三 方 模块 (如 我 们 自行 编写 的 模块 )， 需 要 在 系统 环境 中 添加 第 三 方 模块 路 径 ， 即 
新 建 pythonpath 环境 变量 ， 值 为 这 个 模块 所 在 的 路 径 。 具 体 方法 如 下 。 

打开 计算 机 “控制 面板 ”， 选 择 “ 系 统 和 安全 ”， 再 选择 “系统 ”， 单 击 “ 高 级 系统 
设置 ”， 弹 出 如 图 3-4 所 示 的 界面 。 

单 击 “环境 变量 ”按钮 ， 在 弹出 的 界面 中 ， 在 “系统 变量 ”下 单 击 “ 新 建 ” 按 钮 ， 在 
弹出 的 “新 建 系统 变量 ”对 话 框 中 ， 为 变量 名 填写 “pythonpath”， 为 变量 值 填写 第 三 方 
模块 文件 所 在 的 路 径 即 可 。 

如 这 里 存储 路 径 填 写 了 “Di:\python yubg”， 如 图 3-5 所 示 。 

也 可 以 用 临时 访问 文件 的 方法 ， 如 调用 在 E:/yubg/python 中 的 文件 yubg.py: 

import sys 


sys.path.append('E:/yubg/python') 
import yubg 
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ec * 个 | 一 ， 福利 面板 系统 和 安全 ， 系统 Y | 叫 | 垫 雪 近 测 面板 D 
二 


Ll 
沙 
村 


文件 (。 编 蜀 (FE) ” 否 春 (V) ”工具 (TD) 帮助 (H) A 
© 
查看 右 关 计算 机 的 基本 信息 
各 届 疡 关 理沙 Windows 版 本 


多 运 但 发 村 Windows 10 专业 版 加 司 

四 za ieroeok Wind 10 

| | InQOWs 
x 


至 统 层 性 


ft 计算 机 各 硬件 。” 高 航 。 系统 保护 远程 
芷 能 
视 滴 涩 有 果 ， 处 理 锋 计 划 ， 内 存 使 用 ， 以 及 庶 拟 内 存 
用 户 配 置 文件 
与 登录 张 户 想 关 的 反面 设 壮 
设置 (E).. 
启动 和 故 除 恢 各 
系统 启动 、 系 统 故 附和 调试 估 息 
设置 加 
全 二 Ee 
KR |) 
i 
另 请 参 冶 | WE | my 
站 
3-4 ”新 建 pythonpath 环境 变量 
环境 变 县 
yubg 的 用 户 变 县 (U) 
变 县 值 
MOZ PLUGIN_PATH DA\Foxit Reader\plugins\ 
OneDrive Ci\Users\yubg\OneDrive 
Path Ci\Users\yubg\Anaconda3;C:\Users\yubg\Anaconda3\Scripts;... | 
TEMP 3%6USERPROFILE36\APPData\Local\TemP 
TMP 9%USERPROFILE9%6\AppData\Local\Temp 
上 
新 建 系 统 变量 
变量 名 (N): PythonPath 


变 县 值 (V): DApython_yubgl| 


浏览 目录 (D).… 


Windows_NT 


Os 
C:\WINDOWS\system32:;C:\WINDOWS:C:\WINDOWS\System... 


Path 
PATHEXT ‘COM;.EXE;.BAT;.CMD;,VBS;.VBE;.JS;.JSE;.WSF;.WSH;.MSC 
PROCESSOR ARCHITECT,... x86 
PROCESSOR IDENTIFIER x86 Family 16 Model 5 Stepping 3, AuthenticAMD vy 
I | [ 1 
| | | 


3-5 ”存储 路 径 
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3.7.2 包 (package) 


Python 包 是 一 个 有 层次 的 文件 目录 结构 ， 它 定义 了 由 n 个 模块 或 n 个 子 包 组 成 的 
Python 应 用 程序 执行 环境 。 

简单 地 说 ， 包 是 一 个 包含 _init .py 文件 的 目录 ， 该 目录 下 一 定 得 有 __init .py 文件 
和 其 他 模块 或 子 包 ， 也 就 是 带 有 ” init .py 的 文件 夹 ， 并 不 在 和 平 里 面 有 什么 。 

多 个 关系 密切 的 模块 组 织 成 一 个 包 ， 以 便于 维护 和 使 用 。 这 项 技术 能 有 效 避 免 名 字 空 
间 冲 突 。 创 建 一 个 名 为 包 名 的 文件 夹 ， 并 在 该 文件 夹 下 创建 一 个 _init_.py 文件 ， 就 定义 
了 一 个 包 。 可 以 根据 需要 ， 在 该 文件 夹 下 存放 资源 文件 、 已 编译 扩展 及 子 包 。 

举例 来 说 ， 一 个 包 可 能 有 以 下 结构 : 


yubg/ 
nt Dy 
index.py 
Primitive/ 
oR ob 
lines.py 
这 放量 0 
text .py 
yubg 1/ 
用 < 
plot2d.py 
yubg2/ 
Gy 
plot3d.py 


import 语句 使 用 以 下 几 种 方式 导入 包 中 的 模块 : 


import yubg.Primitive.fill 
# 导 入 模块 yubg .Primitive.fill1， 只 能 以 全 名 访问 模块 属性 
# 例 如 yubg.Primitive.fill.floodfill (img,x,y,color) 


from yubg.Primitive import fill 
# 导 入 模块 fi11， 只 能 以 fi11 .属性 名 这 种 方式 访问 模块 属性 
# 例 如 fil11.floodfill (img,x,y,color) 


from yubg.Primitive.fill import floodfill 
# 导 入 fi11， 并 将 函数 floodfi1ll 放 入 当前 名 称 空间 ， 直 接 访问 被 导入 的 属性 
# 例 如 floodfill (img,x,y,color) 
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无 论 一 个 包 的 哪个 部 分 被 导入 ， 在 文件 _init .py 中 的 代码 都 会 运行 。 这 个 文件 的 内 
容 允 许 为 空 ， 不 过 ， 通 常情 况 下 ， 它 用 来 存放 包 的 初始 化 代码 。 导 入 过 程 遇 到 的 所 有 
_init _ .py 文件 都 被 运行 。 因 此 ，import yubg.Primitive.fill 语句 会 顺序 运行 yubg 和 
Primitive 文件 夹 下 的 _init .py 文件 。 

下 面 的 语句 有 歧义 : 


from yubg.Primitive import * 


本 语句 的 原意 是 想 将 yubg.Primitive 包 下 的 所 有 模块 导入 到 当前 的 名 称 空间 。 然 而 ， 
由 于 不 同 平台 之 间 文 件 命 名 规则 不 同 ( 比 如 大 小 写 敏感 问题 )，Python 不 能 正确 判断 哪些 模 
块 要 被 导入 。 语 句 只 会 顺序 运行 yubg 和 Primitive 文件 夹 下 的 _init _.py 文件。 要 解决 这 
个 问题 ， 应 该 在 Primitive 文件 夹 下 的 _init .py 中， 定义 一 个 名 字 为 all 的 列表 ， 例 如 : 


# yubg/Primitive/ init -pyY 
ell mn 


这 样 ， 上 面 的 语句 就 可 以 导入 列表 中 所 有 的 模块 了 。 
3.7.3 datetime 和 calendar 模块 


time 模块 提供 各 种 时 间 相 关 的 功能 。 在 Python 中 ， 与 时 间 处 理 有 关 的 模块 包括 time、 
datetime， 以 及 calendar 等 。 

(1) 必要 说 明 。 

虽然 time 模块 总 是 可 用 ， 但 并 非 所 有 的 功能 都 适用 于 各 个 平台 。 模 块 中 定义 的 大 部 分 
函数 是 调用 C 平台 上 的 同名 函数 实现 ， 所 以 各 个 平台 上 的 实现 可 能 略 有 不 同 。 

(2) 一 些 术语 和 约定 的 解释 。 

时 间 戳 (timestamp) 的 方式 : 通常 来 说 ， 时 间 惟 表示 的 是 从 1970 年 1 月 1 日 00:00:00 
开始 按 秒 计算 的 偏 移 量 (time.gmtime(0))， 此 模块 中 的 函数 无 法 处 理 1970 纪元 年 以 前 的 日 期 
和 时 间或 太 遥 远 的 未 来 (处 理 极限 取决 于 C 函数 库 ， 对 于 32 位 系统 来 说 ， 是 2038 年 )。 

UTC(Coordinated Universal Time， 世 界 协调 时 ): 也 叫 格林 尼 治 天 文 时 间 ， 是 世界 标准 
时 间 。 在 中 国 为 UTC+8。 

DST(Daylight Saving Time): 即 夏令 时 的 意思 。 

【 例 3-14】time 模块 : 

>>> import time # 导 入 时 间 模 块 

>>> tl1=time.time() # 返 回 现在 的 时 间 ， 但 返回 的 是 时 间 戳 

>>> 心 1 


1466828024.2864037 
>>> 


.fo 人 


mm Python 数据 分 析 基 础 


>>> 七 2=time .ctime() # 返 回 现在 的 时 间 ， 正 常 的 时 间 格 式 
>>> C2 

uOat Tn 2 | dD 70 

>>> 


>>> t2=time.ctime (t1) # 可 以 将 时 间 惟 作为 参数 ， 返 回 正常 时 间 格 式 


天 二 之 
Sat Jun 25 L201344 20 二 92” 
>>> 


>>> t3=time.localtime()  # 返 回 当前 的 时 间 元 组 格式 

> 3 

time.struct time (tm year=2016, tm mon=6, tm mday=25, tm hour=12, 
tm min=1]5,; tm sec=57,; tm wday=5, tm yday=177, tm isdst=0) 

> 


>>> t4=time.asctime () # 返 回 现在 的 时 间 ， 正 常 的 时 间 格 式 
>>> 七 4 

Sat Jun 25 T21635 IDOL6" 

>>> 


>>> t4=time.asctime (t3) # 可 将 时 间 元 组 作为 参数 ， 返 回 正常 的 时 间 格 式 


关 六 和 二 法 
"oat Tun Zo T2050 2040” 
> 


>>> time.strftime('%y/%m/%d') # 返 回 当前 日 期 ， 以 /分 割 ， 也 可 换 成 以 ,分 割 
18NWOG6X25R 

>>> 

说 明 如 下 。 

tm year: 年 。 

tm mon: 月 。 

tm mday: 日 。 

tm hour: 时 。 

tm min: 分 。 

tm_sec: 秒 。 

tm_wday: 一 周 中 的 第 几 天 。 
tm_yday: 一 年 中 的 第 几 天 。 
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tm isdst: 夏令 时 (-1 代表 夏令 时 )。 
1. datetime 模块 


datatime 模块 重新 封装 了 time 模块 ， 提 供 更 多 接口 ， 提 供 的 类 有 date、time、 
datetime、timedelta( 时 间 加 减 )、tzinfo( 时 区 )。 

例如 : 

>>> import datetime 


>>> datetime.date.today () # 返 回 当 前 日 期 
datetime.date(2016, 6, 25) 


>>> datetime.date(2016, 4, 10) 
datetime.date(2016, 4, 10) 


>>> datetime.date.today () .ctime () # 返 回 当前 日 期 时 间 
"Sat gun 25 DODO 20.6" 


>>> datetime.date.today() .timetuple() # 返 回 当前 的 时 间 元 组 格式 
time.struct time (tm year=2016, tm mon=6, tm mday=25, tm hour=0, tm min=0, 
tm sec=0, tm wday=5, tm yday=177, tm isdst=-1) 


>>> print (datetime.datetime.now()) # 返 回 当前 正常 的 日 期 时 间 
2016 06295 13°056%47628L702 


>>> 七 = datetime.datetime.now() # 取 当前 日 期 时 间 
>>> m = 七 + datetime.timedelta(5) # 在 七 时 刻 上 增加 5 天 (默认 是 天 ) 
>>> m 


datetime.datetime(2016, 6, 30, 13, 56, 53, 998939) 


>>> m = 七 + datetime.timedelta (weeks=5) 

>>> print (m) 

2016=07-30 13:56:53.998939 

>>> 

说 明 如 下 。 

timedelta() 的 参数 还 可 以 是 hours=5， 或 者 是 weeks=5、minutes=5、seconds=5， 但 没有 
years 和 months， 因 为 年 和 月 的 时 间 不 定 ， 如 月 份 有 30 天 和 31 天 。 


2. calendar 模块 


此 模块 的 函数 都 是 与 日 历 相 关 的 ， 例 如 打印 某 月 的 字符 月 历 。 星 期 一 是 默认 的 每 周 第 
一 天 ， 星 期 天 是 默认 的 最 后 一 天 。 更 改 设置 需 调 用 calendar.setfirstweekday0O 函 数 。 
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.Ho ， 


例如 : 


>>> import calendar 


>>> m = 
>>> print (m) 

APIL1 ‘2016 

Mo Tu We Th Fr 

1 

4 CO 

E20 345 

E89 220 2 了 过 之 

2021 28 29 


>>> 
print (n) 


>>> n = 
SDLnNt() 


January 

Mo Tu We Th Fr 
1 
让 
lL 1 
0 -全 
S728 29 


Lpril 
Mo Tu We Th Fr 
1 


Ga 
13 14 15 
pe 
27 28 29 


July 
Mo Tu We Th Fr 

1 
E20 a 
13 1d4 15 
2 2 2 
27 28 29 


October 
Mo Tu We Th Fr 


S270 7 
l2 13 14 
19 20 21 
206 27° 28 


Sa Su 


2 


号 


SO 


16 
2 
30 


7 
24 


calendar.month (2016,4) 


# 返 回 某 年 某 月 的 日 历 


2016 


February 
We Th Fr 


calendar.calendar (2016,w=2,1=1,c=6) 


# 见 后 注 


March 
Tu We Th Fr 
:| 
oil 
15 16 17 18 
te 2 
29 30 31 


Jund 
Tu We Th Fr 

:| 
TT 8 0 
i 2 ye 


21 22 23 24 
28 29 30 


September 
Tu We Th Fr 
2 

2 
1 6 
20 2 22 24 
2 20 29° .30 


December 
Tu We Th Fr 
J 

SB Tg 
Ll Lo 1 
yo | 
27 28 29 30 
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注 : n = calendar.calendar(2016,w=2,l=1,c=6) 一 一 返回 某 年 的 年 历 ， 三 个 月 一 行 ， 间 隔 

为 距离 c， 每 日 宽度 间隔 为 w 字符 ， 每 行 长 度 为 21xw+18+2xc，1 是 每 星期 行 间 距 。 
calendar 模块 还 可 以 处 理 半 年 的 问题 。 判 断 是 否 国 年 、 两 个 年 份 之 间 国 年 的 个 数 。 
例如 : 


>>> import calendar 

>>> print (calendar.isleap (2012)) 

True 

>>> print (calendar.leapdays (2010, 2015)) 
i 

>>> 


3.7.4 “urllib 模块 


当 我 们 想 下 载 网 上 的 文档 、 数 据 时 ， 也 就 是 编写 大 家 常 说 的 息 虫 ， 常 用 到 urllib 模 
块 ， 具体 示例 如 下 : 


>>> import urllib.request 

>>> ur = urllib.request.urlopen ("http://www.baidu.com") 
>>> Content = ur.read() 

>>> mystr = content.decode ("utf8") 

>>> GL CLOSe() 

>>> print (mystr) 


<!DOCTYPE html> 
< -STATUS OK > 
<html> 
<head> 
<meta http-equiv="content-type" content="text/html;charset=utf-8"> 
<meta http-equiv="X-UA-Compatible" content="IE=Edge"> 
<meta content="always" name="referrer"> 
<meta name="theme-color" content="#2932el"> 
<link rel="shortcut icon" href="/favicon.ico" type="image/x-icon" /> 
<link rel="search" type="application/opensearchdescription+xml" 
href="/content-search.xml" title=" 百 度 搜 索 " /> 
<link rel="icon" sizes="any" mask 


href="//www.baidu.com/img/baidu.svg"> 


<link rel="dns-prefetch" href="//sl.bdstatic.com"/> 
<link rel="dns-prefetch" href="//tl1.baidu.com"/> 
<link rel="dns-prefetch" href="//t2.baidu.com"/> 
<link rel="dns-prefetch" href="//t3.baidu.com"/> 
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<link rel="dns-prefetch" href="//t10.baidu.com"/> 
<link rel="dns-prefetch" href="//t1l1.baidu.com"/> 
<link rel="dns-prefetch" href="//t12.baidu.com"/> 
<link rel="dns-prefetch" href="//bl.bdstatic.com"/> 


<title> 百 度 一 下 ， 你 就 知道 </title> 


>>> 


由 于 网 页 内 容 太 多 ， 这 里 只 取 了 <title> 标 签 之 前 的 部 分 。 当 然 ， 要 想 获 取 更 多 的 其 他 
内 容 ， 那 就 要 使 用 更 多 的 技术 。 这 里 仅仅 把 首页 上 的 内 容 “ 抓 ”了 下 来 。 需 要 注意 : 


urllib.request.urlopen ("http://www.baidu.com") 


这 行 代 码 里 的 参数 是 网 址 ，“http://” 不 能 少 ， 否 则 会 报错 ! 关于 更 多 的 更 深层 次 的 扑 
虫 技术 ， 本 书后 面 还 有 介绍 。 


3.8 类 


面向 对 象 编程 一 一 Object Oriented Programming， 人 简称 OOP， 是 一 种 程序 设计 思想 。 
OOP 把 对 象 作为 程序 的 基本 单元 ， 一 个 对 象 包含 了 数据 和 操作 数据 的 函数 。 

在 Python 中 ， 所 有 数据 类 型 都 可 以 视 为 对 象 ， 当 然 ， 也 可 以 自 定 义 对 象 。 自 定义 的 对 
象 数 据 类 型 就 是 面向 对 象 中 的 类 (Class) 的 概念 。 

类 是 所 有 面向 对 象 语 言 中 最 难 理解 的 一 个 内 容 。Python 中 的 类 (Class) 是 一 个 抽象 的 概 
念 ， 比 函数 还 要 抽象 ， 这 也 是 Python 的 核心 概念 ， 是 一 个 非常 重要 的 知识 点 ， 我 们 可 以 把 
它 简单 地 看 作 是 数据 以 及 由 存 取 、 操 作 这 些 数据 的 方法 所 组 成 的 一 个 集合 。 

我 们 在 学 习 函 数 (function) 之 后 ， 知 道 了 可 以 重用 代码 ， 那 为 什么 还 要 用 类 来 规划 函数 
呢 ? 因为 类 有 这 样 一 些 优点 。 

(1) 类 对 象 是 多 态 的 : 也 就 是 多 种 形态 ， 这 意味 着 我 们 可 以 对 不 同 的 类 对 象 使 用 同样 
的 操作 方法 ， 而 不 需要 额外 写 代 码 。 

(2) 类 的 封装 : 封装 之 后 ， 可 以 直接 调用 类 的 对 象 ， 来 操作 内 部 的 一 些 类 方法 ， 不 需 
要 让 使 用 者 看 到 代码 工作 的 细节 。 

(3) 类 的 继承 : 类 可 以 从 其 他 类 或 者 元 类 中 继承 它们 的 方法 ， 直 接 使 用 。 

定义 类 (class) 的 语法 如 下 : 

class NameClass (object): 


def fname (self, name): 


self.name = name 
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第 一 行 语法 是 class 后 面 紧 接 类 的 名 称 ， 最 后 带 上 冒号 。 类 的 名 称 首 字母 最 好 大 写 。 
第 二 行 开 始 是 类 的 方法 ， 与 函数 非常 相似 ， 但 是 与 普通 函数 不 同 的 是 ， 它 的 内 部 有 一 
个 self 参数 ， 作 用 是 对 对 象 自身 的 引用 。 
这 里 以 一 个 例子 来 说 明 面 向 过 程 和 面向 对 象 在 程序 流程 上 的 不 同 之 处 。 假 设 要 处 理学 
生 的 成 绩 表 ， 为 了 表示 一 个 学 生 的 成 绩 ， 面 向 过 程 的 程序 可 以 用 一 个 字典 来 表示 : 
stdl = {'name': '‘'Michael', 'score': 98} 
2 amer "Bob “SOULeL:? HE 
处 理学 生成 绩 可 以 通过 函数 来 实现 ， 比 如 打印 学 生 的 成 绩 : 
def print score(std): 
Plime( Oly EL AFormAt (oto name nl oto Seore ly 
但 如 果 采 用 面向 对 象 的 程序 设计 思想 ， 我 们 首先 思考 的 不 是 程序 的 执行 流程 ， 而 是 
Student 这 种 数据 类 型 应 该 被 视 为 一 个 对 象 ， 这 个 对 象 拥有 name 和 score 这 两 个 属性 
(Property)。 如 果 要 打印 一 个 学 生 的 成 绩 ， 首 先 必须 创建 出 这 个 学 生 对 应 的 对 象 ， 然 后 ， 给 
对 象 发 一 个 print_score 消息 ， 让 对 象 自行 把 自己 的 数据 打印 出 来 。 
类 定义 如 下 : 
class Student (object): 
def init (self, name, Score) : 
self.name = name 
self.score = score 
def print score (self): 
print('{0},{1}'.format (self.name, self.score)) 
给 对 象 发 消息 ， 实 际 上 就 是 调用 对 象 对 应 的 关联 函数 ， 又 称 为 对 象 的 方法 (Method)。 
面向 对 象 的 程序 写 出 来 就 像 这 样 : 
bart = Student ('Bart Simpson', 59) 
lisa = Student('Lisa Simpson', 87) 


bart.print score{) 


lisa.print score() 


面向 对 象 的 设计 思想 是 从 自然 界 中 来 的 ， 因 为 在 自然 界 中 ， 类 (Class) 和 实例 (Instance) 
的 概念 是 很 自然 的 。Class 是 一 种 抽象 概念 ， 比 如 我 们 定义 的 Class 一 一 Student， 是 指 学 生 
这 个 概念 ， 而 实例 (Instance) 则 是 一 个 个 具体 的 Student， 比 如 Bart Simpson 和 Lisa Simpson 
是 两 个 具体 的 Student。 

所 以 ， 面 向 对 象 的 设计 思想 是 抽象 出 Class， 根 据 Class 创建 Instance。 

类 的 方法 与 普通 的 函数 只 有 一 个 特殊 的 区 别 一 一 它们 必须 有 额外 的 第 一 个 参数 ， 但 是 
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在 调用 此 方法 的 时 候 ， 不 用 为 这 个 参数 赋值 ，Python 会 提供 这 个 值 。 这 个 特别 的 变量 指 对 
象 本 身 ， 它 就 是 self。 

虽然 可 以 给 这 个 参数 任何 名 称 ， 但 是 强烈 建议 使 用 self 这 个 名 称 一 一 其 他 名 称 都 是 不 
赞成 使 用 的 。 使 用 一 个 标准 的 名 称 有 很 多 优点 ， 例 如 我 们 写 的 程序 代码 其 他 人 可 以 迅速 识 
别 ， 如 果 使 用 self 的 话 ， 还 有 些 IDLE( 集 成 开发 环境 ) 也 可 以 帮助 我 们 。 

Python 如 何 给 self 赋值 以 及 为 何不 需要 给 它 赋 值 ? 这 里 举 一 个 例子 。 

假如 有 一 个 MyClass 类 和 它 的 一 个 实例 MyObj。 调 用 对 象 的 MyObj.method(argl,arg2) 
方法 时 ，Python 会 自动 转 为 MyClass.method(MyObj, argl, arg2)， 这 就 是 self 的 原理 了 。 

这 也 意味 着 如 果 有 一 个 不 需要 参数 的 方法 ， 但 是 我 们 仍然 需要 给 这 个 方法 定义 一 个 
self 参数 。 比 较 下 面 类 和 函数 的 区 别 。 


类 : 
#coding = utf-8 
# 创 建 实例 类 Test 


class Test (object): 
def add(self,a,b): 


雪人 让 匡 


打印 输出 a+b 的 值 ， 注 意 类 方法 需要 添加 self 


时 得 六 汪 


print (at+b) 
def display(self): 


和 


打印 输出 字符 串 ， 注 意 类 方法 需要 添加 self， 尽 管 不 需要 参数 


print('hell, here is a Class test.') 


test = Test() # 创 建 一 个 类 实例 test 
fest addll. a) # 调 用 方法 
test.display() 


函数 : 


def addTwo (a,b):  # 不 需要 加 self 参数 
print (a+b) 


addTwo (1,2) 


类 中 声明 add(0) 方 法 时 ， 若 不 加 self， 则 提示 错误 。 
Python 编程 中 ， 类 的 概念 可 以 比 作 某 种 类 型 集合 的 描述 。 打 个 比方 : 类 就 是 烤 饼 干 的 
模子 ， 而 一 个 个 的 饼干 就 是 一 个 个 实例 ， 或 者 说 类 就 是 一 个 工厂 ， 实 例 就 是 一 个 个 产品 。 
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创建 类 时 ， 可 以 定义 一 个 特定 的 方法 ， 名 为 _init _0O， 只 要 创建 这 个 类 的 一 个 实例 ， 
就 会 运行 这 个 方法 。 可 以 向 _init 0 方法 传递 参数 ， 这 样 ， 创 建 对 象 时 就 可 以 把 属性 设置 
为 我 们 希望 的 值 ， 这 个 _init 0 方法 会 在 创建 对 象 时 完成 初始 化 。 
>>> class peo: 
def init (self,name,age,sex): 
self.Name = name 
self.Age = age 
self.Sex = sex 


def speak (self): 
print ("my name: " + self.Name) 


>>> 


实例 化 这 个 类 的 对 象 时 : 


>>> zhangsan=peo ("zhangsan",24,'man') 
>>> print (zhangsan.Age) 

24 

>>> print (zhangsan.Name) 

zhangsan 

>>> print (zhangsan.Sex) 

Man 

>>> Zhangsan.speak() 

my name: Zhangsan 

>>> 


本 章 小 结 


本 章 主 要 学 习 了 if、for、while 流程 控制 语句 ， 尤 其 使 用 for 循环 遍历 的 方法 ， 还 有 以 
下 重要 内 容 。 

(1) 函数 map 和 zip 的 使 用 。 

(2) 函数 和 类 的 编写 格式 。 

(3) try 的 使 用 方法 。 

(4) 包 和 模块 的 导入 方法 。 


练 习 


(1) 在 0~9 之 间 随 机 选择 1 个 整数 ， 操 作 100 次 ， 统 计 共 有 几 种 数字 ， 并 用 字典 的 方 
式 输出 每 个 数字 的 出 现 次数 ， 键 是 出 现 的 整数 ， 值 是 出 现 的 次 数 。 
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(2) 将 整数 2016 的 每 个 数字 分 离 出 来 ， 依 次 打印 输出 。 

(3) 已 知 字 典 {“name”:“python”, “book”:“python”, “lang”:“english”}， 要 求 将 该 字典 的 
键 和 值 对 换 。( 注 意 ， 字 典 中 有 键 的 值 是 重复 的 ) 

(4) 已 知 一 段 程序 中 ， 用 列表 保存 几 个 用 户 名 ， 例 如 [‘xiaoxifeng’, ‘cangcang’, ‘tom’]， 
要 求 通过 终端 输入 新 的 用 户 名 ， 判 断 所 输入 的 用 户 名 是 否 为 已 经 设置 好 的 用 户 名 ， 并 且 对 
判断 结果 给 出 友好 的 提示 。 如 果 不 是 ， 人 允许 用 户 多 次 尝试 输入 ， 直 到 正确 为 止 。 

(5) 找 一 段 英文 的 文本 ， 统 计 该 文本 中 单词 的 出 现 次 数 。 比 如 “How are you. How are 
you.” 的 统计 结果 是 {how”:2, “are”:2, “you”:2}。 

(6) 已 知 字 符 串 a=“aAsmr3idd4bgs7Dlsf9eAF”， 要 求 编写 程序 ， 完 成 如 下 任务 。 

GD 将 字符 串 中 的 数字 取出 ， 并 输出 成 一 个 新 的 字符 串 .。 

@ 统计 字符 串 中 每 个 字母 的 出 现 次 数 (忽略 大 小 写 ， 即 认为 a 与 A 是 同一 个 字母 )， 
并 输出 成 一 个 字典 。 像 {‘a?:3,‘b”:1} 这 样 。 

@) 去 除 字 符 囊 多 次 出 现 的 字母 ， 不 区 分 大 小 写 。 如 ‘aAsmr3idd4bgs7DIlsf9eAF’* 经 过 
去 除 后 ， 输 出 ‘asmr3id4bg7lf9e’。 

(7) 有 一 百 个 瓶子 ， 分 别 编 号 为 1~100。 现 在 有 人 拿 枪 从 第 一 个 开始 射击 ， 每 枪击 破 
一 个 ， 跳 过 一 个 ， 一 直到 一 轮 完成 。 接 着 在 剩 下 的 瓶子 里 面 再 次 击破 第 一 个 ， 间 隔 一 个 再 
击破 一 个 。 问 最 后 剩 下 完整 的 瓶子 是 这 一 百 个 瓶子 里 的 第 几 个 ? 

(8) 写 一 段 程序 ， 能 够 实现 如 下 功能 。 

Q@ 输入 英文 的 姓名 。 

@ 按照 字典 顺序 将 所 有 姓名 排序 。 

G@) 输入 完毕 ， 将 排序 结果 打印 出 来 . 

(9) 编写 一 个 函数 ， 实 现 摄 氏 温度 和 华氏 温度 之 间 的 换算 ， 换 算 公 式 为 F=9C/5 + 32。 


要 求 输入 单位 是 摄氏 度 的 值 ， 能 够 显示 相应 的 华氏 度 值 ， 反 之 亦 然 。 
(10) 制 做 一 个 加 法 计算 器 ， 要 求 用 户 先 后 输入 两 个 数 ， 能 够 计算 出 结果 ， 并 打印 出 加 
法 算式 。 


(11) 为 老师 们 编写 一 个 处 理 全 班 考 试 成 绩 的 程序 。 要 求 如 下 。 

@ 能 够 依次 录入 班级 同学 的 姓名 和 分 数 。 

@ “录入 完毕 ， 则 打印 出 全 班 的 平均 分 、 最 高 分 的 同学 姓名 和 分 数 。 

(12) 编写 工资 额 计算 器 ， 要 求 如 下 .。 

GD 确定 每 月 的 基本 工资 。 

@ 输入 每 月 的 实际 应 当 工 作 天 数 。 

@) 输入 当月 的 请 假 天 数 ， 如 果 请 假 天 数 小 于 等 于 2 天 ， 对 工资 无 影响 ， 大 于 2 天 小 
于 等 于 7 天 ， 扣 除 当月 基本 工资 的 10%; 大 于 7 天 小 于 等 于 14 天 ， 扣 除 当月 基本 工资 的 


.110\， 


第 3 章 流程 控制 及 函数 与 类 叙 > 


50%; 大 于 14 天 ， 扣 除 全 月 工资 。 

@ 如 果 当 月 实际 工作 天 数 和 应 工作 天 数 一 样 (不 算 加 班 )， 则 增加 基本 工资 的 20%。 

图 如 果 当 月 有 加 班 ， 则 按照 加 班 的 天 数 和 当月 的 日 工资 (基本 工资 /实际 工作 天 数 ) 计 
算 加 班 费 。 

@ 输入 最 终 应 得 工资 。 

(13) 有 多 少 个 三 位 数 能 被 17 整除 ? 编写 程序 ， 将 这 些 数值 显示 出 来 。 

(14) 编写 一 个 猜 数 游戏 ， 要 求 如 下 。 

GD 用 户 可 以 输入 无 限 多 次 数字 。 

@ 如 果 猜 中 了 数字 ， 则 要 输出 用 户 猜测 的 次 数 和 数字 结果 。 

(15) 编写 程序 ， 判 断 一 个 数 是 否 为 素数 。 

(16) 创建 PayCalculator 类 ， 拥 有 pay_rate 属性 ， 以 每 小 时 人 民 币 数量 为 单位 。 该 类 拥 
有 compute pay(hours) 方 法 ， 计 算 给 给 定 工 作 时 间 的 报酬 ， 并 返回 。 

(17) 创建 SchoolKid 类 ， 初 始 化 小 孩 的 姓名 、 年 龄 。 也 有 访问 每 个 属性 的 方法 和 修改 
属性 的 方法 。 然 后 创建 ExaggeratingKid 类 ， 继 承 SchoolKid 类 ， 在 子 类 中 履 盖 访问 年 龄 的 
方法 ， 并 将 实际 年 龄 加 2。 
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wn》 Python 数据 分 析 基 础 
本 章 主要 介绍 Python 在 数据 处 理 、 数 据 分 析 、 数 据 可 视 化 方面 的 常用 方法 与 技巧 。 
4.1 关于 Pandas 
4.1.1 什么 是 Pandas 


Pandas 是 Python 的 一 个 数据 分 析 包 ， 最 初 由 AQR Capital Management 于 2008 年 4 月 
开发 ， 并 于 2009 年 底 开 源 面 市 ， 目 前 由 专注 于 Python 数据 包 开 发 的 PyData 开发 团队 继续 
开发 和 维护 ， 属 于 PyData 项 目的 一 部 分 。 

Pandas 最 初 被 作为 金融 数据 分 析 工 具 而 开发 出 来 ， 因 此 ，Pandas 为 时 间 序 列 分 析 提 供 
了 很 好 的 支持 。Pandas 的 名 称 来 自 于 面板 数据 (panel data) 和 Python 数据 分 析 (data 
analysis)。panel data 是 经 济 学 中 关于 多 维 数据 集 的 一 个 术语 ， 在 Pandas 中 ， 也 提供 了 
panel 的 数据 类 型 。 


4.1.2 ”Pandas 中 的 数据 结构 


Pandas 中 引入 了 两 种 新 的 数据 结构 
在 NumPy 的 基础 之 上 。 

Series: 一 维 数组 系列 ， 也 有 称 序 列 的 ， 与 Numpy 中 的 一 维 array 类 似 。 二 者 与 
Python 基本 的 数据 结构 List 也 很 相近 。 

DataFrame: 二 维 的 表格 型 数据 结构 。 很 多 功能 与 R 中 的 data.frame 类 似 。 可 以 将 
DataFrame 理解 为 Series 的 容器 。 以 下 内 容 主 要 以 DataFrame 为 主 。 

Panel: 三 维 的 数组 ， 可 以 理解 为 DataFrame 的 容器 。 


Series 和 DataFrame， 这 两 种 数据 结构 都 建立 


4.1.3 ”Pandas 的 安装 方法 


在 安装 Pandas 之 前 ， 无 须 安装 任何 Python 及 其 衍生 产品 ， 直 接 下 载 Anaconda， 官 方 
网 址 为 https:/www.continuum.io/downloads ， Anaconda 发 展 更 新 较 快 ， 本 书 下 载 的 是 
Python 3.5 版 本 ，32 位 (看 个 人 机 器 ， 有 的 是 64 位 )。 

下 载 界 面 如 图 4-1 所 示 。 

下 载 后 的 文件 如 下 : 


JJ Anaconda3-2.4.1-Windows-xB6.exe 应 用 程序 306.282 KB 


直接 双击 安装 ， 可 自选 安装 位 置 。 安 装 完成 后 ， 在 开始 菜单 里 可 以 看 到 如 图 4-2 所 示 
的 菜单 。 
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~ 上 | | ® Download Anaconda a x 贺 


Which version should 1download and install? 


Because Anaconda includes installersfor Python 2.7 and 3.5, eitherisfine. Using either version, you can 
use Python 3.4 with the conda command. You can create a 3.5 environment with the conda command if 


you've downloaded 2.7 一 and vice versa. 


If you don't have time or disk space for the entire distribution, try Miniconda. which contains only conda 
and Python. Then install just the individual packages you want through the conda command. 


Anaconda for Windows 


PYTHO PYTHON 3.5 


Windows 64-bit Windows 64-bit 


387M 392M 


Windows 32-bit 
Graphical Installer 


Windows 32-bit 
Graphical Installer 


321M 316M 


Behind afirewall? Usethese zipped VYindows installers. 


图 4-1 Anaconda 官网 下 载 界面 


A 


A Access 2016 


| Anaconda3 (32-bit) 


Anaconda Cloud 
— 
Pr 一 


Anaconda Prompt 


IPython 


Jupyter Notebook 
新 建 Microsoft Edge 


Jupyter QTConsole 
ji 于 看 


Launcher 4 oO 4 


Ee: 


Reset Spyder Settings 


北京 


中 国 山西 省 太 
O Cortana 原市 胜利 街 


259, 030009 
至 Cracklock 


4-2 Anaconda 菜单 


安装 完 Anaconda， 就 相当 于 安装 了 Python、IPython、 集 成 开发 环境 Spyder 以 及 一 


安装 包 等 。 


此 
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应 注意 : Windows 7 下 64 位 安装 一 样 进行 ， 但 有 些 机 器 安装 完毕 后 ， 在 开始 菜单 栏 内 
找 不 到 Spyder， 但 可 以 运行 anaconda prompt， 再 键入 Spyder 即 可 运行 。 

Spyder 是 使 用 Python 语言 进行 科学 编程 的 跨 平 台 开 源 集成 开发 环境 ， 它 的 最 大 优点 就 
是 模仿 MATLAB 的 “工作 空间 ”， 第 一 次 打开 比较 慢 。Spyder 的 使 用 比较 简单 ， 下 面 介 
绍 它 的 几 个 基本 功能 。 

代码 提示 

代码 提示 是 开发 工具 必 备 的 功能 ， 当 需要 Spyder 给 我 们 进行 代码 提示 时 ， 只 需要 输入 

函数 名 的 前 几 个 字母 ， 再 按 下 Tab 键 ， 即 可 得 到 IDE 的 代码 提示 ， 如 图 4-3 所 示 。 
ED _ | 


ES Edit Search Sourcse Run Debug Cansoles JIools View Help 


| | | PEE Pl 人 NR 了 DD 国 B| 以 rn nfene Docments\Tyihon Seripts - 遇 池 丰 


富 X Object inspector sx 

全 S51px 回 Sourece [Console 了 | Objert ~ 百 

42 - 

45markers = { 

44 8: 

45 DD 

a5 2: 'O 

地] Here you can get help ot any objact by pressing CEH In 

as front of it eitner on the Editor or the Console. 

49 六 站 Help can also be shown automatically afrer writing a 

59 在 这 三 Dt figure(1, figsize=(8, 6)) 


left parenthesis Next to an object. YOU can sctivste this 


1 ox ~ Axes3D(fig, clev--150, orim-116) behavior in Preferences > Owect Inspector 


53 3 pea 3 ~ PCA(n_components-3) ea WE 
二 pca_3 = pca_3,fit_transforn(dote) New to Spyder? Read our tutorial 


56 i pandas .DatoFrome (datoa_pcoa_3).groupby(torgect) 
s7 


58 for E in data_pca_gb.groups: 
59 ax. scetterl 


6 data_pca_Bgb.get_Broup(g)[e]， | 
61 doto_pca_eb.gct_sroup(g)[1], 
62 data Se eed-8et-_Broup (8)[2], Objeet inspector | Variablo oplerer | Fils erplorer 
G63 Cc-coiors[e 
人 maorker=markcrs[E]。 eas A 
65 cmap=plt. cm.Paired 门 | 加 ce 1 上 回 画 区 
66 一 RT FR TE 
67 技 下 Tab 刍 ， 即 可 得 到 代码 提示 ! yon A Aor 2.5.8 (64-bit)| (default, Jan 29 2816, 15:@1:46) [Msc v.1988 “ | 
三 Type "copyright*，"credits” or "license” for more information， | 
78 da = 
放 nn ee EF Lrython 4.9.3 -- An enhanced Intcractivc Python 司 | 
3 ata pca_3 -> Introduction and overview of Ipython's features - 
3 data pca gb pbyCtarger) squickref - -> Quick reference. 
74 for | datasets help > Python’s own help system,. 

object? -> Details about "object'，use 'object??' for extra details. 

Weuiref -> A bricf reference about the graphicol user interface。 

In [1]): 


= [Console | Tistory 1og | Ipyther, censole 
Permissions: RN End-oflines: CRLF Encoding: UTF-$-GUESSED Line: 81 Column: 5 Memory: 70 % 


4-3 Spyder 界面 


2. 变量 浏览 


变量 是 代码 执行 过 程 中 暂 留 在 内 存 中 的 数据 ， 我 们 可 以 通过 Spyder 对 变量 承载 的 数据 
进行 查看 ， 方 便 我 们 对 数据 进行 处 理 。 

如 图 4-4 所 示 ， 变 量 浏览 框 中 包含 了 变量 的 名 称 、 类 型 、 大 小 以 及 基本 预览 ， 双 击 对 
应 变量 名 所 在 的 行 ， 即 可 打开 变量 的 详细 数据 进行 查看 。 

3. 图 形 查看 

绘图 是 我 们 进行 数据 分 析 时 必 备 的 技能 之 一 ， 一 款 好 的 工具 ， 必 须 具 备 图 形 绘制 的 功 
能 ，IPython 窗 体 中 集成 了 绘图 功能 ， 如 图 4-$ 所 示 。 
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[® spyder Python 3.5) ns | 
tie — Edt Sen Source torn Deboyg Corsoles jools View Help 
[| Lm PP E E 为 从 : pol 千 妨 他 和 除 国 DC:\Users\nanfeng\ Deonants\Fython Seripts ~ 是 二 寺 
FoWN SE 加 加 EE x | Yariable onplorar 男 x< 
如 Name Type Size Value = 
| 3markers- { ls =|| colors dict 3 LD 是 .和 4 
a4 @: ‘x, 双击 对 应 的 变量 名 ， 就 可 以 打开 数据 框 了 ! 到 | 
a -0 5 arreyf[[ 5.1, 3.5。 1.4, 0.2], 
es 
data pca 2 
| doto_pco_3 float64 (150, 3) [-2.71539052, @.15955585 ... 
E] int32 二 -人 豆 
iris datasets.base.Bunch 5 {'dota'’: oarra...dtype='*U19')) 
markers dict 3 < Xs 1 Ds Ws 0°} 
了 array([8, 8, 8, 8, 8, §, 8, 8, 8, 0, 8, 8 
sd m2 O50) fey 00 0 0 0 0 0 
| 
jeet Inspector | Verishlo oxploror | Pile explorer 
[IFYthor console x 
| 部 己 
00 到 
| 02 加 ed 
04 和 
06 EN 
05 
| 15 
Resize | 加 | Facksround color 
国 
9 
_ a 马 
[ython console 
Permissions: RW End-of-lines: CRLF [ Line: 82 Column: 1 ”Memory: 79 % 


人 号 5pyder (Python 3,5) 


File Edit Search Source Run Debug Consoles Tools 


国 | 配 ] | 并 全 和 站 CNUEeramanfanc\DocmentsvPython Script 


Bditor - TEL5.115.1.27 


XX yariabLs。 explorer 


已 | 巴 5.1.17n 国 
<3markers = { 


4 纳 
45 3:“D"， 
46 2: 70” 
<7} 
8 
<9 # 三 误 并 着 
SO fig ~ plt.figure(1, fiesize=(8, 5)) 
朋 siax = Axes3D(fig, elev=-150, ezin=118) 
52 
53pca 3 = PCA(n_components=3) 
S4data pca_ 3 ~ pca_3.fit transforn(data) 
55 
56 date_pca_eb = pandas.Detaframe (date_pco_3).groupby (target) 
57 
55 for g in data_pca gb.groups: 
59 ax.scatter( 
60 dato_pca_gb.gct_group(g)[9], 
61 datoe_pca_Eb.Bet_group(g)[1], 
52 data_pra gb.get_group(g)[2], 
63 c=colors[g], 
64 marker-markers[g], 
65 cmop-plt.cm.Paired 
66 3 
67 
55# 二 次 部 产 


69 pca 2 = PCA(n_components=2) 

76 data pca 2 = pca 2.fit transfora(data) 

71 

72 data pca_ eb ~ pandas.DataFrame(data pca_2).groupby [target) 
73 


74 for B in data_Pca Bb.Broups: 


75 plt.scatter( 

76 data_pca gb. gat_ group(g)[e], 
27 data_pca_gb.get_group(e) [1], 
78 c-colors[E]， 

79 marker=merkers[g] 

356 ) 

5 

S2 


Value 


3 Wy 


1.4; 8.2], 
1.4， 8.2]， 
-6.32658731], 


array([[ 5.1, 3.5, 
Edo 

array([[-2.68428713, 
[-2.71539862, 8B.16955685], 

array([[-2.68428713, -@.32658731, 
[-2.71539862, 日 .16955685 ... 


(150. 引 
(150, 2) 
{150, 3) 


=- 轩 Console | Tistory 1o IFython consols 


Permissicns: RW E Ne 


图 4-5 ” ”Spyder 绘图 界面 


了 解 以 上 三 点 功能 ， 基 本 上 就 可 以 使 用 Spyder 在 数据 分 析 过 程 中 尽情 发 挥 了 。 
最 后 ， 需 要 提醒 大 家 的 是 ， 执 行 代码 时 必须 先 选中 代码 ， 然 后 再 按 下 Ctrl+Enter 组 合 
键 ， 如 果 没 有 选中 代码 ， 只 是 把 光标 放 在 代码 对 应 的 行 ， 按 下 CtrltEnter 组 合 键 ， 是 不 能 
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执行 代码 行 的。 执行 选 定 的 代码 也 可 以 用 鼠标 单 击 Run cell 按钮 来 完成 ， 如 图 4-6 所 示 。 


兆 Spyder (Python 3.5) 
File Edit Search Source_ R Debug Consoles Tools View Help 


品 镍 国 风 中 BB 节 DO RD 国 国 四 i+ 


Edi tor —C: Wsers\yubs\OneDrive \ wordeloud\ jieba0.py 


3 :d423.py 辐 (ID guanjian py 局 Le untitled22.py 回 (Pwordcloud pyk 回 Le word py [2 jieba0.f 
和 六 -*- coding: vtf-§ 和 
2# 1 放流 一 J 
3， 


4 jieba.load userdict("userdict.txt") 
5 import jieba.posseg as pseg 

6 jieba.add word( "石墨 烯 ') 

Fr 


ENimport jieba 


12 s1 = ”在 克 和 鲁 伊 夫 时 代 ， 巴 萨 联赛 中 完成 了 四 连 冠 ， 后 三 个 冠军 都 是 在 末 轮 逆 葵 获得 的 。 在 91/92 赛 季 ， 巴 萨 末 书 
13 s2 = ”巴萨 上 一 次 压 哨 村 冠 ， 发 生 在 69/198 赛 季 中 。 厅 轮 前 巴萨 领先 皇马 :1 分， 只 要 两 球 就 将 村 十 。 末 轮 中 巴萨 4 
= “在 48/49 赛 季 中 ， 巴萨 末 轮 2 比 1 拿 下 同城 死敌 西班牙 人 ， 以 2 分 优势 夺冠 。52/53 赛 季 ， 巴 萨 末 轮 3 比 8 战胜 毕 


16 mylist = [s1,s2,s3] 

17 word list = [™ ".join(jieba.cut(sentence)) for sentence in mylist] 

i8 new text = " '.join(word_ list) 

19 wordcloud = WordCloud(font path="'simhei.ttf', background color="black").generate(new text) 
26 plt.imshow(wordcloud) 

21 plt.axis("off")  #off 人 BEon， 祖 明示 庆 遂 从 本 冰 涝 

22 plt.show() 

23 


图 4-6 单 击 Run cell 按钮 执行 选 定 的 代码 
如 果 在 安装 时 遇 到 其 他 问题 ， 可 以 在 如 下 网 址 中 找到 各 种 操作 系统 的 详细 安装 指导 : 


http://www.datarobot.com/blog/getting-up-and-running-with-python/ 


4.1.4 在 Anaconda 中 安装 第 三 方 库 


在 Windows 下 安装 Python 和 很 多 包 ， 对 于 新 手 来 说 ， 总 觉得 是 一 件 很 痛苦 的 事情 。 
所 以 许多 人 喜欢 使 用 Anaconda， 最 方便 的 一 点 是 它 整合 了 大 量 的 依赖 包 。 
如 下 网 址 页 面 列 出 了 它 所 包含 的 全 部 依赖 包 : 


http://docs.continuum.io/anaconda/pkg-docs.html 


其 中 ， 比 如 科学 计算 的 numpy、theano 等 ， 都 应 有 尽 有 。 

尽管 Anaconda 整合 了 很 多 常用 的 包 ， 但 它 也 不 是 万 能 的 ， 有 些 包 就 没有 整合 进来 ， 
比如 疏 虫 scrapy。 

不 过 安装 scrapy 包 比 较 简 单 ， 只 需要 在 “开始 ”菜单 中 选 定 “Windows 系统 ”， 单 击 
“命令 提示 符 ”， 在 弹出 的 窗口 命令 行 中 输入 “conda install scrapy”， 就 可 以 安装 了 。 

图 4-7 是 安装 scrapy 包 的 截图 。 
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] | 样 笠 笠 笠 笠 笠 笠 样 样 笠 笠 科 科 科 各 笠 笠 样 样 样 笠 科 科 科 各 笠 科 样 笠 笠 笠 科 各 各 科 笠 笠 样 样 样 笠 科 科 妊 笠 笠 笠 笠 笠 科 | OO% 


owing packages conflict with each other: 


图 4-7 安装 scrapy 包 的 界面 


4.2 数据 准备 


4.2.1 数据 类 型 


Python 常用 的 三 种 数据 类 型 是 logical、numeric、character。 
logical 即 布尔 型 ， 只 有 两 种 取 值 ，0 和 1， 或 者 真 假 (rue、false)。 
运算 规则 : 人 (与 ， 有 一 个 为 假 则 为 假 ); |( 或 ， 有 一 个 为 真 则 为 真 ); not( 非 ， 取 反 )， 具 


体 如 表 4-1 所 示 。 


表 4-1 布尔 运算 规则 


运算 符 | 注释 运算 规则 
& 与 两 个 逻辑 型 数据 中 ， 其 中 一 个 数据 为 假 ， 则 结果 为 候 
两 个 逻辑 型 数据 中 ， 其 中 一 个 数据 为 真 ， 则 结果 为 真 

二 取 相反 值 ， 非 真 的 罗 辑 型 数据 为 候 ， 非 假 的 逻辑 型 数据 为 真 


numeric 即 数 值 型 。 

运算 规则 : +、-、*#、/ 。 

character 即 字 符 型 ， 使 用 单 引 号 (“*) 或 者 双 引 号 (“) 包 围 起 来 。 

Python 数据 类 型 变量 的 命名 规则 如 下 。 

(1) 变量 名 可 以 由 a~z、A~Z、 数 字 、 下 划 线 组 成 ， 首 字母 不 能 是 数字 和 下 划 线 。 
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(2) 大 小 写 敏感 。 


(3) 变量 名 不 能 为 Python 中 的 保留 字 。 如 不 能 是 and、continue、lambda、or 等 。 


4.2.2 ”数据 结构 
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数据 结构 是 指 相互 之 间 存 在 的 一 种 或 多 种 特定 关系 的 数据 类 型 的 集合 ， 主 要 有 Series 
(系列 ) 和 Dataframe( 数 据 框 )。 


1. Series 


Series 即 系列 (也 称 序 列 )， 用 于 存储 一 行 或 一 列 的 数据 ， 以 及 与 之 相关 的 索引 的 集合 。 
使 用 方法 如 下 : 


Series ( [数据 1， 数据 2，...]，index=[ 索 引 1， 索 引 2，... 


例如 : 


In [1]:from pandas import Series 
X = Series(['a'v2，' 螃 蟹 '] ,index=[1,2,3]) 
En 


Qe 2l: 
1 a 
2 2 
3 螃蟹 


dtype: object 


In [3]:X[3] 
out [3] : "螃蟹 ， 


]) 


一 个 系列 允许 存 放 多 种 数据 类 型 ， 索 引 也 可 以 省 略 ;， 可 以 通过 位 置 或 者 索引 访问 数 


如 X[3]， 返 回 ' 螃 角 "。 


Series 的 索引 index 可 以 省 略 ， 默 认 从 0 开始 ， 也 可 以 指定 索引 。 


在 Spyder 中 写 入 代码 : 


from pandas import Series 
A=Series ([1,2,3]) # 定 义 系列 的 时 候 ， 数 据 类 型 不 限 
print (A) 


# 输 出 如 下 

0 # 第 一 列 的 0 到 2 就 是 数据 的 索引 ， 也 就 是 位 置 ， 计 数 从 0 开始 
二 2 

2 3 
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dtype: :int64 


from pandas import Series 
A=Series ([1,2,3],index=[1,2,3]) # 可 自 定义 索引 ， 如 : 123; ABCD 等 
print (A) 


1 1 
2 六 
5 US 
dtype: int64 #dtype 指向 数据 类 型 ，ini64 是 指 64 位 整数 


from pandas import Series 
Neoeries(tbl 2nd ndex={ CAM Be CL)) 
print (A) 


A 本 
B 2 
C 3 
dtype: int64 


注意 容易 犯 的 错误 : 


from pandas import Series 
A=Series([1,2,3],index=[A,B,C]) 
print (A) 


Traceback (most recent call last): 


Eile "<ipython-input—10-d5dd5L933cbasn, LIne 3 Tn <moduLle> 
A=Series{([1,2,3],index=[A,B,C]) 


NameError: name 'B' is not defined 


因为 这 里 A、B、C 都 是 字符 串 ， 需 要 使 用 引号 。 
访问 系列 值 时 ， 需 要 通过 索引 值 来 访问 ， 系 列 的 索引 index 和 系列 值 是 一 一 对 应 的 关 
系 ， 如 表 4-2 所 示 。 
表 4-2 系 类 索引 与 系列 值 对 应 


系列 索引 系列 值 
0 14 
1 26 
2 31 
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例如 : 


from pandas import Series 

A=Series([14,26,31]) 

print (A) 

print (A[1]) # 系 列 的 位 置 从 0 开始 的 ， 第 一 个 数 从 0 开始 计数 
print (A[5]) # 超 出 index 的 总 长 度 会 报错 


0 14 

1 26 

2 31 
dtype: int64 
26 


KeyError: 5 # print (A[5]) 时 因为 索引 越界 出 错 


from pandas import Series 


A=Series([14,26,31],index=['first','second','third']) 


print (A) 


print (A['second']) # 如 果 设 置 了 index 参数 ， 也 可 通过 参数 来 访问 系列 值 


下 于 天 名 七 14 
second 26 
蕊 下 二 可 81 
dtype: int64 
26 


执行 下 面 的 代码 ， 看 看 运行 的 结果 : 


from pandas import Series 


# 可 以 混合 定义 一 个 序列 


x = "Series(tl a Trae, dl], lindex=E Erest, Saecond 


# 访 问 
| 呈 罗 | 


# 根 据 index 访问 


x['second'] 


# 不 能 越界 访问 
区 [3 


# 不 能 追加 单个 元 素 ， 但 可 以 追加 系列 
x.append('2') 


thar]) 
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# 追 加 一 个 系列 
n = Series(['2']) 


x.append (n) 


# 需 要 使 用 一 个 变量 来 承载 变化 ， 即 x .append (n) 返 回 的 是 一 个 新 序列 


x = Xx.append (n) 


# 判 断 值 是 否 存 在 ， 数 字 和 逻辑 型 (True/False) 是 不 需要 加 引号 的 
2 in x.values 


'2' in x.values 


# 切 片 
> | 


# 定 位 获取 ， 这 个 方法 经 常用 于 随机 抽样 


# 根 据 index 删除 
x.drop (0) 
> 


# 根 据 位 置 删 除 ， 返 回 新 的 序列 
ROSS DIS 


# 根 据 值 删除 ， 显 示 值 不 等 于 2 的 系列 ， 即 删除 2， 返 回 新 序列 


x[2!=x.values] 


# 通 过 值 访问 系列 号 index 


x.index[x.values=="'a'] 


# 修 改 series 中 的 index: 可 以 通过 赋值 更 改 ， 也 可 以 通过 reindex() 方 法 
| 


# 可 将 字典 转化 为 Series 


=erliesrl a lr DU S 直 放 


Series 的 sort_index(ascending=True) 方 法 可 以 对 index 进行 排序 操作 ，ascending 参数 用 
于 控制 升序 或 降序 ， 默 认为 升序 。 也 可 使 用 reindex0 方 法 重新 排序 。 

在 Series 上 调用 reindex 重 排 数据 ， 使 得 它 符 合 新 的 索引 ， 如 果 索 引 的 值 不 存在 ， 就 
引入 缺失 数据 值 : 
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#reindex 重 排 序 

OB = SOLIDCEASD "To Do J Pn TE Ce a Ml) 
ob] 

outt[25]: 

d 455 

2 TZ 

a ee 

C 二 

dtype: float64 


je 有 | = OD rolinder(l iar oe du "ery 


obj2 

Out[26]: 
a i 
b US 
G Sb 
da 4.5 
a NaN 


dtype: float64 


obj.:.reindex(['a', ‘'b', "cr "ay ‘'e'"']; fill value=0) 
Out[2 bls 


a 
b 
G 3 
d 
e 


OG 


dtype: float64 


Series 对 象 本 质 上 是 一 个 NumPy 的 数组 ， 因 此 NumPy 的 数组 处 理 函 数 可 以 直接 对 
Series 进行 处 理 。 但 是 Series 除了 可 以 使 用 位 置 作为 下 标 存 取 元 素 外 ， 还 可 以 使 用 标签 存 
取 元 素 ， 这 一 点 与 字典 相似 。 每 个 Series 对 象 实际 上 都 由 两 个 数组 组 成 。 

@ index: 它 是 从 NumPy 数组 继承 的 index 对 象 ， 保 存 标 签 信息 。 

@ values: 保存 值 的 NumPy 数组 。 

注意 如 下 几 点 。 

(1) Series 是 一 种 类 似 于 一 维 数组 (数组 : ndarray) 的 对 象 。 

(2) 它 的 数据 类 型 没有 限制 (各 种 NumPy 数据 类 型 )。 

(3) 它 有 索引 ， 把 索引 当 作 数据 的 标签 (key) 看 待 ， 类 似 于 字典 (只 是 类 似 ， 实 质 上 是 
数组 )。 

(4) Series 同时 具有 数组 和 字典 的 功能 ， 因 此 它 也 支持 一 些 字 典 的 方法 。 
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2. DataFrame 


DataFrame 是 用 于 存储 多 行 和 多 列 的 数据 集合 ， 是 series 的 容器 。 使 用 方式 如 下 : 


Dataframe (columnsMap) 


例如 : 


df=DataFrame'l( 
{vage Series([l21722723]) rn name' Series (GB' YDog rr "JOhn rr "Tim lj) by 
index=[0,1,2]) 


其 中 的 数据 行列 位 置 如 图 4-8 所 示 。 


列 名 
|】 一 一 列 名 分 别 为 
age 和 name 
行 
总 共 三 行 
这 是 第 三 行 
列 色 介 位 置 
总 共 两 列 这 个 位 置 df.at[2,'name'] 


这 是 第 一 列 
图 4-8 DataFrame 数据 行列 位 置 示 例 


又 如 : 


from pandas import Series 

from pandas import DataFrame 

df=DataFrame ({'age':Series([26,29,24]),'name':Series(['Ken','Jerry', 'Ben 
le 

print(tofy 


3 天 注意 : DataFrame 中 单词 的 写法 是 首 字 母 大 写 。 索 引 不 指定 时 也 可 以 省 略 。 使 用 数 
据 框 时 ， 要 先 从 pandas 中 导入 DataFrame， 数 据 访问 方式 如 表 4-3 所 示 。 
表 4-3 数据 框 的 访问 方式 


访问 位 置 


访问 列 变量 名 [ 列 名 ] 访问 对 应 的 列 。 如 df[fname”] 
访问 行 变量 名 [n:m] 访问 nn 行 到 m-l 行 的 数据 。 如 df[2:3] 
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访问 位 备 注 


访问 块 ( 行 和 列 ) 变量 名 .iloc[n1:n2, ml1:m2] 


如 df.iloc[0:3, 0:2] 


访问 nl 到 (n2-1) 行 ，ml 到 (m2-1) 列 的 数据 。 


续 表 


访问 位 置 变量 名 .at[ 行 名 ,， 列 名 ] 访问 ( 行 名 , 列 名 ) 位 置 的 数据 。 如 df.at[1, "name”] 
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具体 示例 如 下 : 


A=df['age'] # 获 取 age 的 列 值 
print (A) 

0 26 

I 0 

2 24 

Name: age, dtype: int64 


B=df [1:2] # 获 取 序 号 是 第 一 行 的 值 (其 实 是 第 二 行 ， 从 0 开始 的 ) 
print (B) 

age name 
29 Jerry 


C=df.iloc[0:2,0:2] # 获 取 第 0 行 到 2 行 ( 不 含 ) 与 第 0 列 到 2 列 (不 含 ) 的 块 
PELNG(C) 
age name 
0 26 Ken 
1 29 Jerry 


D=df.at[0, 'name']  # 获 取 第 0 行 与 name 列 的 交叉 值 
print (Dy 
Ken 


执行 下 面 的 代码 并 查看 运行 结果 : 
from pandas import DataFrame 
df1 = DataFrame ({ 


VageDs lo 22 9] 
Cames sl EN OD "TEMTIS] 


df2 = DataFrame (data={ 
aoe ly Za 223] 
"ame SL KEN "Fon EMEE] 
yp Lndexsl tirest Veoocond, Ehiradr 1 
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# 按 列 访问 
df['"'age'"] 
# 按 行 访问 
ss 国 天 用 7 二 | 


# 按 行列 号 访问 
| 


# 按 行 索引 名 、 列 名 访问 


dfZeatl tn I TAMeYd 


# 修 改 列 名 


dfl1.columns=['age2', ‘'name2°'] 


# 修 改行 索引 


dfl.index = range (1,4) 


# 访 问 指定 列 的 值 


dfl[dfl.columns[0:2]] # 等 价 于 column names=dfl .columns,dfl[column names[0:2]] 


# 根 据 行 索 引 删 除 
df1l.drop (1，axis=0) # axis=0 是 表示 行 轴 ， 也 可 以 省 略 


# 根 据 列 名 进行 删除 
dfl.drop('age2!，axis=1) # axis=1 表示 列 轴 ， 不 可 省 略 


# 第 二 种 删除 列 的 方法 
del dfl['age2'] 


# 增 加 列 
dfli["'newColumn'] = [2, 4, 6] 


# 增 加 行 。 这 种 方法 效率 比较 低 
df2.1loc[len(df2)] = [24, "KENKEN"] 


增加 行 的 办 法 可 以 通过 合并 两 个 DataFrame 来 解决 。 例 如 : 


df = DataFrame([[l1, 2], [3, 4]], columns=list('AB')) 


Out[46]: 
A B 

(0 

3 4 
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df2 = DataFrame([[5, 6], [7, 8]], columns=list('AB')) 
df2 


# 方 法 一 ， 合 并 两 个 数据 框 ， 并 生成 一 个 新 的 数据 框 ， 简 单 的 “又 加 ”， 不 修改 index 
df.append (df2) # 仅 把 df 和 qdf2 “车” 起 来 了 ， 没 有 修改 合并 后 df2 部 分 的 index 
Out [48] : 

A B 


A A 
J NW 二 
co oO BA ND 


# 方 法 二 ， 合 并 生成 一 个 新 的 数据 框 ， 并 修改 index 
df.append (df2，ignore index=True) # 修 改 index， 对 df2 部 分 重新 索引 了 
Guft [49] 

A B 


Mn DN EE 
3 Ww 
0 ms MS 


4.2.3 数据 导入 

数据 存在 的 形式 多 样 ， 有 文件 (CSV、Excel、TXT) 和 数据 库 (MySQL、Access、SQL 
Server) 等 形式 。 

(1) 导入 TXT 文件 : 

read table (file,names=[ 列 名 1, 列 名 2,...],sep="",...) 

file 为 文件 路 径 与 文件 名 。 


names 为 列 名 ， 默 认为 文件 中 的 第 一 行 作为 列 名 。 
sep 为 分 陋 符 ， 默 认为 空 ， 表 示 默 认 导入 为 一 列 。 
【 例 4-1】 读 取 ( 导 入 )TXT 文件 : 
from pandas import read table 
df = read table('E://rzl1 .txt', 
niames=[ "YHM', "DLSJ", "TCSJ", "YWXT", "IP', "REMARK"],Sep=",") 
Print (dE 
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YHM DLSJ TCSJ YWXT EB 


0 "S1402048" 2014-11-04 08:44:46 NaN 1.225790e+17 221.205.98.55 

1 S1411023 2014-11-04 08:45:06 NaN 1.225790e+17 183.184.226.205 

2 S1402048 2014-11-04 08:46:39 NaN NaN 221.205.98.55 

3 20031509 2014-11-04 08:47:41 NaN NaN 222.31.51.200 

4 S1405010 2014-11-04 08:49:03 NaN 1.225790e+17 120.207.64.3 
REMARK 

0 单 点 登录 研究 生 系统 成 功 ! 

1 单 点 登录 研究 生 系统 成 功 ! 

2 用 户 名 或 密码 错误 。 

3 ”统一 身份 用 户 登录 成 功 ! 

4 单 点 登录 研究 生 系统 成 功 ! 


注意 : ”TXT 文本 文件 要 保存 成 UTF-8 格式 才 会 不 报错 。 但 此 例 还 有 另外 一 个 问 
题 ， 即 第 一 个 数据 带 有 双 引 号 ， 该 怎么 处 理 ? 


(2) 导入 CSV 文件 : 


read csv (file,names=[ 列 名 1, 列 名 2,...],sep="",...) 


file 为 文件 路 径 与 文件 名 。 
names 为 列 名 ， 默 认为 文件 中 的 第 一 行 作为 列 名 。 
sep 为 分 隔 符 ， 默 认为 空 ， 表 示 默 认 导入 为 一 列 。 
【 例 4-2】 读 取 ( 导 入 )CSYV 文件 : 
from pandas import read csv 
df = read csv('E://rz20.csv', 
names=['YHM', 'DLSJ', 'TCSJ', 'YWXT', 'IP','REMARK'],sep=",") 
PELNt (df) 


YHM DLSJ TCSJ YWXT IP REMARK 


0 id band num price NaN NaN 
1 1 130 联通 123 159 NaN NaN 
2 2 ee 2 753 NaN NaN 
3 3 L132 125 456 NaN NaN 
4 4 133 电信 126 852 NaN NaN 


使 用 read_table 命令 也 能 执行 ， 结 果 与 read_csv 一 致 : 


from pandas import read table 
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df = 


read able (Es//rz20.G37 


names=["YHM', "DLSJ"', "TCSI", "YWXT', "IP',"'REMARK"] ,sep=",") 
print (df) 


YHM DLSJ TCSJ YWXT IP REMARK 


0 id band num price NaN NaN 

1 130 联通 123 159 NaN NaN 
2 2 i1310 24 753 NaN NaN 

3 3 T329125 456 NaN NaN 

4 4 133 电信 126 852 NaN NaN 


(3) 导入 excel 文件 : 


read excel (file, sheetname,header=0) 


file 为 文件 路 径 与 文件 名 。 

sheetname 为 sheet 的 名 称 ， 例 如 sheetl。 

header 为 列 名 ， 默 认为 0， 文件 的 第 一 行 作为 列 名 。 只 接受 布尔 型 0 和 1。 
【 例 4-3】 读 取 ( 导 入 )Excel 文件 : 


from pandas import read excel 
df = read excel ('E://rzl1 .xlsx',sheetname="'Sheet2',header=1) 
print (dsf) 


ST411023 2014~11=04 D8B*45:06 Ql22579031373493731 183.184.226.205 \ 


0 S1402048 2014-11-04 08:46:39 NaN 2 20 9 55 

1 20031509 2014-11-04 08:47:41 NaN 2 3 S51 2200 

2 S1405010 2014-11-04 08:49:03 J] 225790et+17 1T2Un 207 64e3 

3 20031509 2014-11=04 0Q8:47:41 NaN 222 L530 

4 S1405010 2014-11-04 08:49:03 1.225790et+17 T2020 O43 
单 点 登录 研究 生 系统 成 功 ! 

0 用 户 名 或 密码 错误 。 

1 ”统一 身份 用 户 登 录 成 功 ! 

2 单 点 登录 研究 生 系 统 成 功 ! 

3 ”统一 身份 用 户 登 录 成 功 ! 

4 单 点 登录 研究 生 系统 成 功 ! 

天 注意 : ”header 取 0 和 1 有 差别 ， 取 0 表示 第 一 行 作为 表 头 显示 ， 取 1 表示 第 一 行 丢 
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弃 ， 不 作为 表 头 显示 。 有 时 可 以 跳 过 首 行 或 者 读 取 多 个 表 ， 例 如 : 


df = pd.read excel (filefullpath, sheetname=[0,2],skiprows=[0]) 
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sheetname 可 以 指定 读 取 几 个 sheet， 数 目 从 0 开始 ， 如 果 sheetname=[0,2]， 
则 代表 读 取 第 0 页 和 第 2 页 的 sheet;i skiprows=[0] 代 表 读 取 时 跳 过 第 0 行 。 


(4) 导入 MySQL 库 : 

read_sdl (sql, con= 数 据 库 ) 

sql 为 从 数据 库 中 查询 数据 的 SQL 语句 。 

con 为 数据 库 的 连接 对 象 ， 需 要 在 程序 中 选择 创建 。 
示例 代码 如 下 : 


import pandas 
import MySQLdb 


connection = MySQLdb.connect!( 
nest 2 OO # 本 机 的 访问 地 址 
user = 'root', # 登 录 名 
passwd = '', # 访 问 密码 ， 此 处 无 密码 
db = "Eesty, # 访 问 的 数据 库 
Eort = 5029， # 访 问 端 口 
charset = "utf8') # 编 码 格 式 


data = pandas.read sql'("select * from t user;"yeon = Connection) 
# 七 user 是 test 库 中 的 表 
connection.close() # 调 用 完 要 关闭 数据 库 


4.2.4 数据 导出 


(1) 导出 CSV 文件 : 


to csv (file path,sep= "; "yindex=TRUE,header=TRUE) 


file_path 为 文件 路 径 。 

sep 为 分 隔 符 ， 默 认 是 去 号 。 

index 代表 是 否 导出 行 序号 ， 默 认 是 TRUE， 导 出 行 序号 。 
header 代表 是 否 导出 列 名 ， 默 认 是 TRUE， 导 出 列 名 。 
【 例 4-4】 导 出 CSV 文件 : 


from pandas import DataFrame 

from pandas import Series 

df = DataFzame 人 
{'age':Series([26,85,64]),'name':Series(['Ben','John','Jerry'])}) 


print (df) 


age name 
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0 26 Ben 
1 85 John 
2 64 Jerry 


df Eo Gs ( eNOL esy) 


# 默 认 带 上 inadex 


df.to csv('e:\\02.csv',index=False) # 无 index 
结果 如 图 4-9 所 示 。 
| A | B | 各 D 4 A | B | C 上 

1 age name 1 lage name 

2 0 26 Ben | 26 Ben 

| 1 85 John 3 85 John 

4 这 64 Jerry 4 64 Jerry 

5 5 | 

4 Qi.csv O02.csv 


4-9 ”导出 数据 01.csv 和 02.csv 的 结果 


(2) 导出 Excel 文件 : 


to excel (file path, index=TRUE,header=TRUE) 


file path 为 文件 路 径 。 

index 表示 是 否 导出 行 序号 ， 默 认 是 TRUE， 导 出 行 序号 。 
header 表示 是 否 导出 列 名 ， 默 认 是 TRUE， 导 出 列 名 。 

【 例 4-5】 导 出 Excel 文件 : 


from pandas import DataFrame 

from pandas import Series 

df = DataFrame ( 
{'age':Series([26,85,64]), 
'name':Series(['Ben','John','Jerry'])}) 


df.to excel('e:\\01 .xlsx'") # 默 认 带 上 index 
df.to excel('e:\\02.xlsx',index=False) # 无 index 
结果 如 图 4-10 所 示 。 

A A B a D 地 外 B 如 


1 age name 3 

2 26 Ben 2 26 Ben 

3 85 John 3 85 John 

4 64 Terry 4 64 Jerry 

四 5 

6 0T1.X|SX 一 2-xisx 


4-10 ”导出 数据 01.xlsx 和 02.xlsx 结果 图 
3 注意 : 


凡是 在 Python 2.7 中 要 写 中 文字 符 串 的 地 方 ， 都 要 在 前 面 加 u。 在 to_csv 


里 ， 就 要 多 加 encoding =“UTF8” 这 个 参数 ; 若 要 用 Excel 直接 打开 ， 那么 
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encoding =“GBK”， 或 者 encoding = “GB2312”， 因 Excel 默认 的 是 这 种 编 
码 。 在 Python 3.4 后 就 不 需要 了 。 


(3) 导出 到 MySQL 库 : 


to_sql (tableName， con= 数 据 库 链接 ) 


tableName 为 数据 库 中 的 表 名 。 
con 表示 数据 库 的 连接 对 象 ， 需 要 在 程序 中 选择 创建 。 
示例 代码 如 下 : 


# -*-- coding: utf-8 -*- 
import MySQLdb 
from pandas import DataFrame 


connection = MySQLdb.connect( 
host= "127 0 my 
port=5029, 
user='root"', 
passwd="'", 
db='test', 
charset="'utf8"') 


connection.autocommit (True) # 自 动 递 交 数 据 连 接 
df = DataFrame ({ 
ace se F309 22, 43], 
"mnamevm [ "Jhon sy "Jearry “Bendl 
}); 
df.to sql("table 1", connection, flavor='mysql', if exists='append"') 
# 导 入 MySQL 数据 库 test 库 下 的 table 1 表 中 ， 以 append 追加 的 模式 


connection.close() 


4.3 数据 处 理 
4.3.1 数据 清洗 


数据 分 析 的 第 一 步 是 提高 数据 质量 。 数 据 清洗 就 是 处 理 缺 失 数 据 以 及 清除 无 意义 的 信 
息 。 这 是 数据 价值 链 中 最 关键 的 步骤 。 垃 圾 数据 ， 即 使 是 通过 最 好 的 分 析 ， 也 将 产生 错误 
的 结果 ， 并 误导 业务 本 身 。 因 此 在 数据 分 析 过 程 中 ， 数 据 清 洗 占 据 了 很 大 的 工作 量 。 


1. 重复 值 的 处 理 
drop_duplicates(): 把 数据 结构 中 行 相同 的 数据 去 除 (保留 其 中 的 一 行 )。 
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【 例 4-6】 数 据 去 重 : 


from pandas import DataFrame 


from pandas import read excel 


df = read excel ('e://rz2.xlsx'") 
df 
QU 和 El 

YHM TCSJ YWXT TE 
0 S1402048 18922254812 1.225790e+17 2 0 ds 
1 SEALlLIOZ23 13522255003. 4.2257908+L7 下 BSA 和 本 之 二 6 过 他 5 
2 S1402048 13422259938 NaN SS 
20031509 18822256753 NaN 人 
a4 ‘SIAa05010 18922253721 :22579Qe+17 120.207364.3 
5 20140007 NaN 1.225790e+17 222 5 3D 200 
6 S1404095 13822254373 1.225790et+17 2223L. 595220 
7 S1402048 13322252452 1.225790e+17 221 20 0855 
8 S140501t1 18922257681 T12225790etE7 183.184.230.38 
gSI402048 193322252452. T2257908t17 2215205..98:55 
10 S14A0S011T T8922257681 1 2257906+17 T83184.230.38 
newDF=df .drop duplicates() 
newDF 
Quthb2 ls 

YHM TES YWXT TP 
0 S1402048 18922254812 1.225790e+17 Fo 
LSTALLI023° 13522255003 T220790etLy 83 本 .84255226x205 
2 S1402048 13422259938 NaN 2212205.98.55 
3 20031T509 L8822256753 NaN 2 0 200 
4 S1405010 18922253721 1.225790e+17 T20820T Gd 
5 20140007 NaN 1.225790e+17 22203151200 
6 SIA04095 T13822254373 1223790e4t17 2223 538220 
7 S1402048 13322252452 1.225790e+17 2216205e9855 
8 ° S1405011 18922257681 T1225790er17 L835 L842307538 


在 上 面 的 df 中 ， 第 7 行 和 第 9 行 数据 相同 ， 第 8 和 第 10 行 数据 相同 ， 去 重 后 ， 第 


7、9 和 8、10 各 保留 一 行 数据 。 
2. 缺失 值 处 理 
对 于 缺失 数据 的 处 理 方式 有 数据 补 齐 、 删 除 对 应 行 、 不 处 理 等 方法 。 


(1) dropna0: 去 除数 据 结 构 中 值 为 空 的 数据 行 。 


【 例 4-7】 删 除数 据 为 空 所 对 应 的 行 : 
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from pandas import DataFrame 
from pandas import read excel 
df = 
newDF=df .dropna () 


read excel('e://rz2.xlsx') 


newDF 
Sullals 

YHM TCSYJ YWXT Te 
0 S1402048 18922254812 1.225790e+17 221 .2200598 55 
SLT L3022Z550003 T22790erLE7 T9384 2267205 
4 SFE405010 18922253721 1.225TP90et+t17 120.207.64%3 
6 S1404095 13822254373 1.225790e+17 222':31:598220 
7 S1402048 13322252452 1.225790e+17 ZZ On 
8 ST4050EL 18922257681 时 ,.2257908+17 183.184.230.38 
9 S1402048 13322252452 1.225790e+17 Z21 2053d855 
TOVSLTA0S501L1 T89222507681”] 220790Q06t17 LGolSAs230033 


例 中 的 2、3、5 行 有 空 值 NaN， 已 经 被 删除 。 

(2) dffillna0: 用 其 他 数值 蔡 代 NaN。 

有 些 时 候 ， 空 数据 直接 删除 会 影响 分 析 的 结果 ， 可 以 对 数据 进行 填补 。 
【 例 4-8】 使 用 数值 或 者 任意 字符 替代 缺失 值 : 


from pandas import DataFrame 
from pandas import read excel 


df = read excel('e;//r2z2.xlsx'") 
fet iL 0 ) 
Outtals 

YHM TCS YWXT IP DLSJ 
0 S1402048 1.89223e+10 1.22579e+17 221.205.98.55 2014-11-04 08:44:46 
1 S1411023 1.35223e+10 1.22579e+17 183.184.226.205 2014-11-04 08:45:06 
2 S1402048 1.34223e+10 ? 221.205.98.55 2014-11-04 08:46:39 
3 20031509 1.88223e+10 ? 222.31.51.200 2014-11-04 08:47:41 
4 S1405010 1.89223e+10 1.22579e+17 120720756423 2014-11-04 08:49:03 
5 20140007 ? 1.22579e+17 222.31.51.200 2014-11-04 08:50:06 
6 S1404095 1.38223e+10 1.22579e+17 222.31.59.220 2014-11-04 08:50:02 
7 S1402048 1.33223e+10 1.22579e+17 221.205.98.55 2014-11-04 08:49:18 
8 S1405011 1.89223e+10 1.22579e+17 183.184.230.38 2014-11-04 08:14:55 
9 S1402048 1.33223e+10 1.22579e+17 221.205.98.55 2014-11-04 08:49:18 
10 S1405011 1.89223e+10 1.22579e+17 183.184.230.38 2014-11-04 08:14:55 


如 2、3、5 行 有 空 ， 用 ?替代 了 缺失 值 。 
(3) df.filna(method=“pad*): 用 前 一 个 数据 值 蔡 代 NaN。 
【 例 4-9】 用 前 一 个 数据 值 蔡 代 缺失 值 : 
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from pandas import DataFrame 


from pandas import read excel 


df = read excel('e://rz2.xlsx') 
df.fillna (method='pad') 
用 

YHM TCST YWXT IP DLSJ 
0 S1402048 18922254812 1.225790e+17 221.205.98.55 2014-11-04 08:44:46 
二 六 二 DZ L3522255003. 16225790e+7 LT 06 
2 S1402048 13422259938 1.225790et+]17 221.205.98%55 2014-11-04 08:46:39 
3 20031509 18822256753 1.225790e+17 Ce A A 2014-11-04 08:47:41 
4 S1405010 18922253721 1.225790e+17 120 207 64.3 2014-11-04 08:49:03 
) 20T40007 T8922253721 1.225790e+En/ oy A 8 Wo A | 2014-11-04 08:50:06 
6 S1404095 13822254373 1.225790e+17 ss br Sy A 2014-11-04 08:50:02 
7 S1402048 13322252452 1.225790e+17 2Z221,205997595 2014-11-04 08:49:18 
8 S1405011 18922257681 1.225790e+17 SS 23D36 2014-11-04 08:14:55 
9 S1402048 13322252452 1.225790e+17 221 205.90855 2014-11-04 08:49:18 
10 "SLI4050]1 T892225768]1 4.2257908+17 183.184.230.38 OLA= LL=04MN O00 LAS 


(4) df.filina(method=“bfill*): 用 后 一 个 数据 值 蔡 代 NaN。 

与 pad 相反 ，bfill 表示 用 后 一 个 数据 代替 NaN。 可 以 用 limit 限制 每 列 可 以 替代 NaN 
的 数目 。 

【 例 4-10】 用 后 一 个 数据 值 奉 代 NaN: 
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from pandas import DataFrame 


from pandas import read excel 


df = read excel('e://rz2.xlsx') 
df.fillna (method="'bfi]l1') 
OutlOl 

YHM TCSJ YWXT IP DLSJ 
0 S1402048 18922254812 1.225790e+17 221.205.98.55 2014-11-04 08:44:46 
i ‘SI411023; 13522255003, 1.225790e+17 183.184.226.205 2014-11-04 08:45:06 
2 S1402048 13422259938 1.225790e+17 EBD “ZO0T4=T1i=04 0082546:39 
3 20031509 18822256753 1.225790e+17 222.31.51.200 2014-11-04 08:47:41 
4 S1405010 18922253721 1.225790e+17 120.207.64.3 2014-11-04 08:49:03 
5 20140007 13822254373 1.225790e+17 2220531.5L200 ‘ZOL4=511=-04 08.;50:06 
6 S1404095 13822254373 1.225790e+17 222.31.59.220 2014-11-04 08:50:02 
7 S1402048 13322252452 1.225790e+17 221.205.,.98:55 :2014=~11-04 08:49;18 
8 S1405011 18922257681 1.225790e+17 T831845230039 2014=41 04 08834:55 
9 S1402048 13322252452 1.225790et+17 Pp A 2) 2014-11-04 08:49:18 
出 D SLAO0SOTL L8922257681 0 J:225790e+E7 L863 .1884.230538 2014~1]1->04 0 0832344555 


(5) dffillna(dfmean0): 用 平均 数 或 者 其 他 描述 性 统计 量 来 代替 NaN。 
【 例 4-11】 使 用 均值 来 填补 数据 : 
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from pandas import DataFrame 
from pandas import read excel 


df = read excel('e://rz2 0.xlsx') 


df 
OU 
No math physical Chinese 

0 1 76 85 78 
学 85 56 NaN 

2 3 二 和 95 85 

3 4 NaN 3 58 

4 5 87 52 68 


df.fillna (df.mean()) 


Saeed 

No math physical Chinese 
0 1 76 85 T8500 
2 85 5G ie) 
2 3 76 95 85.00 
党- "和 81 715 58.00 
4 翅 87 52 68.00 


(6) dffillna(dfmean0[math: physical]): 选择 列 进行 缺失 值 的 处 理 。 
【 例 4-12】 为 某 列 使 用 该 列 的 均值 来 填补 数据 : 


from pandas import DataFrame 

from pandas import, read excel 

df = read excel('e://rz2 0.xlsx’) 
df.fillna(df.mean() ['math':'physical"']) 


Ourol: 

No math physical Chinese 
0 由 J 85 78 
L002 85 56 NaN 
2 76 95 85 
r 81 WS 58 
4 5 87 C2 68 


(7) strip0: 清除 字符 型 数据 左右 (首尾 ) 指 定 的 字符 ， 默 认为 空格 ， 中 间 的 不 清除 。 
【 例 4-13】 删 除 字 符 串 左右 或 首位 指定 的 字符 : 


from pandas import DataFrame 
from pandas import read excel 
df = read excel('e://rz2.xlsx'"') 


newDF=df['IP'] .str.strip() # 因 为 IP 是 一 个 对 象 ， 所 以 先 转 为 str 
newDF 
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Out[4]: 
22005598R SS 
L893 L842260205 
2 OBS 
22253 .5:200 
T20020T56d3 
222031. 5] 200 
2220 31059.220 
22l 205090k55 
L83518452307:38 
9 2 205s 089 
10 L9350L64 230538 
Name: IP, dtype: object 
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(1) 字段 抽取 一 一 抽出 某 列 上 指定 位 置 的 数据 ， 做 成 新 的 列 : 


slice (start,stop) 


start 为 开始 位 置 。 
stop 为 结束 位 置 。 
【 例 4-14】 从 数据 中 抽出 某 列 : 


from pandas import DataFrame 
from pandas import read excel 


df = read excel('e://rz2.xlsx') 


GEL TOSI | dE TOS | Laster olstey # astype() 转化 类 型 
inp 

Out [11] : 

0 18922254812 
ni 13522255003 
2 13422259938 
3 18822256753 
4 18922253721 
5 nan 
6 13822254373 
m 13322252452 
8 18922257681 
9 13322252452 


10 18922257681 
Name: TCSJ, dtype: object 
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8 7681 
9 2452 
10 7681 


Name: TCSJ, dtype: 


object 


(2) 字段 拆 分 一 一 按 指定 的 字符 sep， 拆 分 已 有 的 字符 串 : 


split (sep,n,expand=False) 


sep 是 用 于 分 隔 字符 串 的 分 隔 符 。 

n 为 分 割 后 新 增 的 列 数 。 

expand 代表 是 否 展开 为 数据 框 ， 默 认为 False。 

返回 值 : expand 为 True， 返 回 DaraFrame; 为 False 返回 Series。 
【 例 4-15】 拆 分 字符 串 为 指定 的 列 数 : 


from pandas import 


from pandas import 


df = read excell('e: 
newDF=df['IP'] .str. 


newDF=df['IP'].str 
newDF 


DataFrame 

read excel 

Ar22 RLOx) 

strip() #IP 先 转 为 stz， 再 删除 首位 空格 
.Split('.',1,True) # 按 第 一 个 ' . ' 分 成 两 列 ，1 表示 新 增 的 列 数 


区 
0 1 

0 AAA 20559835 
1 183 940226%205 
2 22. 中 D93 E55 
3 之 卫 公 1 12909 
4 120 207T.64.3 
5 人 22 3 3200 
6 222 3 D920 
分 慨 下 205 Ba 
8 3 T184230.33 
9 221 2050598255 
10 83 184.230.38 
newDF.columns = ['IP1', 'IP2-4'] # 给 第 一 第 二 列 增加 列 名 称 
newDF 
已 到 二 下 2 区 

全 IP2-4 
0 FE 20598:55 
于 333 184.226.205 
4 及 下 DD 
3 22 之 和 
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4 120 vA NL es, 
5 2 之 之 2 
6 222 383D95220 
时 ZZ 和 D392 
8 183 184.230.38 
9 之 2 2 有 335 
10 二 人 184.230.38 


(3) 记录 抽取 一 一 是 指 根据 一 定 的 条 件 ， 对 数据 进行 抽取 。 


dataframe [condition] 


condition 为 过 滤 条 件 。 

返回 值 : DataFrame。 

常用 的 condition 类 型 如 下 。 

比较 运算 : <、>、>=、<=、!=， 如 df[df.comments>10000)]。 

范围 运算 : between(left,right)， 如 df[df.comments.between(1000,10000)]。 

空置 运算 : pandas.isnull(column)， 如 dffdf.title.isnull0]。 

字符 匹配 : str.contains(patten, na=False)， 如 dffdf.title.str.contains(‘ 电 台 ’, na=False)]。 
逻辑 运算 : &( 与 )、|( 或 )、not( 取 反 )， 如 : 


df[ (df.comments>=1000)&(df.comments<=10000)] 


上 面 这 一 句 跟 df[df.comments.between(1000,10000)] 等 价 。 
【 例 4-16】 按 条 件 抽取 数据 : 


import pandas 
from pandas import read excel 
df = ead excel (le://r2Z2. XLSR,) 
df [df .TCSJ==13322252452] 
Qut[ 
YHM TCSJ YWXT 于 
1 S1402048' 3322252452 12257906e+17 221:205,.98%55 
9 S1402048, 13322252452 1.229/908t11 221.205.98.55 


df [df.TCSJ>13500000000] 


Gael is 

YHM TCSJ YWXT TE 
0 S1402048 18922254812 1.225790e+17 SS 
SS 上 92 13522255003 2 二 88 2262205 
2003L509 9 L88222567153 NaN 2220 3 0200 
4 S1405040 i8922253/21 .225790Q0e+17 120.207.64.3 
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6 elL4C4035 人 2225437S J 222090erLy Pc I 2 Al) 

S1405011 18922257681 3.225790e+17 183.184.230.38 

EO SLTADSO0LTLIVO T8922257681 T225790erE7 T8537.845230838 
DLSJ 


0 2014-11-04 08:44:46 
1 2014-11-04 08:45:06 
3 2014-11-04 08:47:41 
4%2014=11=04 08 44983 
6 下 二 = 二 034 98350202 
2014 TL1=04 008: T4355 
10 2014-11-04 08:14:55 


df[df.TCSJ.between(13400000000,13999999999)] 


Outlals 

YHM SH YWXT 正 奸 DLSJ 
LoLALLIOZ0 3522255003 .225790er17 T83184.2265205 20T4 I-04 D084506 
2 S1402048 13422259938 NaN 221720509B755 2014—T1=04 0846%39 


6 STI404093 139222543/3 1.220908+17 2224031:59.220 2014=-1L-04 08350302 


df [df .YWXT.isnull()] 


Outlsls 

YHM TCST YWXT EP DLSJ 
2 S1402048 13422259938 NaN 221.205.98.55 2014=11=<04 08:46:39 
3 20031S509 T8822256753 Nay 222.31.51.200 2014-11-04 08:47:41 


df[df.IP.str.contains('222.',na=False)] 


DG 

YHM 工作 号 下 YWXT 天 县 DLSJ 
3 20031509 18822256753 NaN 222.31.51.200 2014-11-04 08:47:41 
5 20140007 NaN 1.225790et+17 Va es YN eA] 2014-11-04 08:50:06 


6 S1404095 T13822254373 1.225790et+17 222%31.59%220 2014-11-04 08:50:;02 


(4) 随机 抽样 一 一 是 指 随 机 从 数据 中 按照 一 定 的 行 数 或 者 比例 抽取 数据 : 


numpy.random.randint (start,end,num) 


start 为 范围 的 开始 值 。 

end 为 范围 的 结束 值 。 

num 为 抽样 个 数 。 

返回 值 : 行 的 索引 值 序列 。 
【 例 4-17】 随 机 抽取 数据 : 


import numpy 


import pandas 


from pandas import read excel 
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df = read excel('e://rz2.xlsx') 
df 
Omeulelolsz 

YHM TCSJ YWXT 于 DLSJ 
0 S1402048 18922254812 1.225790e+17 221.205.98.55 2014-11-4 8:44 
1 SiI411023 13522255003 .2257908+17T 1830D84 220.205 2014=11=4 8%453 
2 S1402048 13422259938 NaN 2Z15205n98755 2014-11-4 8:46 
3°20031T509 158222250753 NaN PN ed 40 2014-11-4 8:47 
4 SIA403010 L18922253721 .22571906+L7 120-207-.64%3 2014-11-4 8:49 
5 20140007 NaN 1.225790e+17 222.31.51.200 2014-11-4 8:50 
6 SIA404095 13822254373 1:225790e+17 22222531 55925220 2014-11=4 8:50 
SOLAO0Z048 193222952452° 1].2257190e8tl17 7 221.205%988 955 2074=11=4 9 8349 
9 STA0S0TL 4148922257681 .225790e+17 T83184.230.38 2014=11=4 83514 
9 S1402048 13322252452. 1.225790e+17 221.205.98.55,. 2014=11=4 8::49 
10ST405017L 18922297T681 T225790en1 1103 L84230538°2014—=11=4 B14 
r= numpy.random.randint (0,10,3) 
下 
Outl2Zl oarav([B 9] 
df.loc[r,:] # 抽 取 = 行 数据 
GUt [SS 

YHM 于 GS YWXT 正 尼 DLSJ 


8 S1405011 18922257681 1.225790e+17 
2 S1402048 13422259938 NaN 
9 S1402048 13322252452 1.225790e+17 


183.184.230.38 2014-11-04 08:14:55 
221.205.98.55 2014-11-04 08:46:39 
221.205.98.55 2014-11-04 08:49:18 
如 下 我 们 来 说 明 如 何 按照 指定 条 件 抽 取 数 据 。 
@ 使 用 index 标签 选取 数据 : df.loc[ 行 标签 , 列 标签 ]。 例 如 : 
# 选 取 ab 两 行 数据 ， 假 设 a、b 为 行 索引 
# 选 取 TCSJ 列 的 数据 

df.loc 的 第 一 个 参数 是 行 标签 ， 第 二 个 参数 为 列 标签 (可 选 参 数 ， 默 认为 所 有 列 标签 )， 
两 个 参数 既 可 以 是 列表 ， 也 可 以 是 单个 字符 ， 如 果 两 个 参数 都 为 列表 ， 则 返回 的 是 
DataFrame， 否 则 为 Series。 

@ 使 用 切片 位 置 选取 数据 : df'iloc[ 行 位 置 , 列 位 置 ]。 例 如 ; 


# 选 取 第 二 行 ， 第 二 列 的 值 ， 返 回 的 为 单个 值 
# 选 取 第 一 行 和 第 三 行 的 数据 


dfoLosD ey | 
Gl 


cd leeds 
dl ll 2 
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df.iloc[0:2,:] # 选 取 第 一 行 到 第 三 行 (不 包含 ) 的 数据 
af .JITOG[: ,1] # 选 取 所 有 记录 的 第 一 列 的 值 ， 返 回 的 为 一 个 Series 
df .i110o6[1,:] # 选 取 第 一 行 数据 ， 返 回 的 为 一 个 series 


说 明 : ”loc 为 location 的 缩写 ，iloc 则 为 integer 用 location 的 缩写 。 更 广义 的 切片 方 
式 是 使 用 .这 ， 它 自动 根据 给 出 的 索引 类 型 判断 是 使 用 位 置 还 是 标签 进行 切 
片 。 即 iloc 为 整 型 索引 ; loc 为 字符 串 索 引 ; ix 是 iloc 和 1loc 的 合体 。 


Python 默认 的 行 序号 是 从 0 开始 的 ， 我 们 称 为 行 位 置 ， 但 实际 上 0 开始 的 行 我 们 在 计 
数 时 为 第 1 行 ， 也 称 为 行 号 ， 是 从 1 开始 的 ; 有 时 index 是 被 命名 的 ， 如 “one’、 ‘two’、 
‘three”?、‘four’ 或 a?、‘b*、“‘c*、“d* 等 字符 串 ， 我 们 称 其 为 标签 。loc 索引 的 是 行 号 、 标 签 ， 
不 是 行 位 置 ， 如 下 例 中 df2.loc[1] 索 引 的 是 第 一 行 ( 行 号 为 1 )， 其 实 位 置 为 0 行 ， iloc 索引 的 
是 位 置 ， 不 能 是 标签 或 行 号 ; 这 则 三 者 皆 可 。 

import pandas as pd 

index loG = ['ar, bd) 

index iloc = [1,2] 

data = Flr273r4], [L567 118] 

columns = ['one', 'two', 'three','four'] 

dfl = pd.DataFrame (data=data,index=index_ loc,columns=columns) 


df2 = pd.DataFrame (data=data,index=index iloc,columns=columns) 


rint (ofl Tool aul 


one 由 
七 WO 2 
three 
four 和 


Name: a dtype: int64 


print (df1.iloc['a']) #iloc 不 能 索引 字符 串 

Traceback (most recent call last): 

TypeError: cannot do label indexing on <class 'pandas.core.index.Index'> 
with these indexers [al of <class 'str'> 


print (df2.iloc[1]) #iloc 索引 的 是 行 位 置 
one 局 
七 WO 6 
three . 
four 8 


Name: 2, dtype: int64 


print (df2.1oc[1]) #loc[1] 索 引 的 是 行 号 ， 的 对 应 的 行 位 置 为 0 行 
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one wl 
two 之 
three 3 
four 4 
Name: 1, dtype: int64 


print(dtLaix[0l) 


one 下 
two 2 
three 3 
four 4 


Name: a, dtype: int64 


print (df1.ix['a']) 


one . 
two 2 
three 3 
four 4 


Name: a dtype: int64 


(8) 通过 逻辑 指针 进行 数据 切片 :df[ 逻 辑 条 件 ]。 例 如 : 


df[df.TCSJ >= 18822256753]  ”# 单 个 逻辑 条 件 
df[ (df.TCSJ >=13422259938)& (df.TCSJ < 13822254373)] # 多 个 逻辑 条 件 组合 


这 种 方式 获取 的 数据 切片 都 是 DataFrame。 例 如 : 


aflQdf TCSU >= 18822256753] 
Qe 4 

YHM CS YWXT i DLSJ 
0 S1402048 18922254812 1.225790e+17 221.205.98.55 2014-11-04 08:44:46 
3200031509 8822256753 NaN 2223T65L:200 2014=11=04 08347:4. 
4°S1405010 J]80922253721 1 .6225790et17 11206207.64 3 2014 1]1—D04"08549:03 
8 STA4050T1 18922257681 | 225790e+E7 183,184.230.38 20T4=114=04"0831A455 
10 STIA405011 18922257681 1.225790e+17 183.184.230.38 2014-11=504 08:14:55 


(5) 字典 数据 一 一 将 字典 数据 抽取 为 dataframe， 有 三 种 方法 : 


import pandas 


from pandas import DataFrame 


#1 .字典 的 key 和 value 各 作为 一 列 

l= a la Lo re 

al=pandas.DataFrame.from dict(dl, orient="'index') 
# 将 字典 转化 为 dataframe， 且 key 列 做 成 了 index 

al.index.name = 'key' # 将 index 的 列 名 改 成 ' key' 
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bl=al.reset index() # 重 新 增加 ijndex， 并 将 原 index 做 成 了 'key' 列 
bl.columns=['key', 'value'] ”<# 对 列 重新 命名 为 'key' 和 'value' 
bl 
Out[ hl: 
key value 
0 iQ E32 
a [2 


#2 .字典 里 的 每 一 个 元 素 作 为 一 列 ( 同 长 ) 
6 # 字 典 的 value 必须 长 度 相 等 
a2= DataFrame (d2) 

a2 

Out [2]: 

b 


WD PD 


4 
3 
6 


#3. 字典 里 的 每 一 个 元 素 作 为 一 列 (不 同 长 ) 


d= {'one' : pandas.Series([1,2,3]),'two' : pandas.Series([1,2,3,4])} 
# 字 典 的 value 长 度 可 以 不 相等 
df = pandas.DataFrame (d) 
df 
人 ET[ 人 下 
one two 
| 1 
| 2 
223 3 
3 NaN 4 
也 可 以 像 下 面 这 样 处 理 : 


import pandas 
from pandas import Series 
import numpy as np 


from pandas import DataFrame 


= LOR A ND ava ll Dr NDeaLEav( ll 2 庆 其 关 国 | 


DataFrame (dict([(k,Series(v)) for k,v in d.items()])) 
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2 NaN 3 
3 NaN :4 


还 可 以 处 理 如 下 : 


import numpy as np 
import pandas as pd 


my dict = dict(A = np.array([1,2]), B = np.array([1,2,3,4])) 
df = pd.DataFrame.from dict(my dict, orient="'index').T 
df 
OutESi: 
A B 
OO 
O20 
NaN 3.0 
NaN 4.0 


BN i C3 


4.3.3 排名 索引 


1. 排名 排序 


Series 的 sort_index(ascending=True) 方 法 可 以 对 index 进行 排序 操作 ，ascending 参数 用 
于 控制 升序 或 降序 ， 默 认为 升序 。 

在 DataFrame 上 ，.sort index(axis=0，by=None，ascending=True) 方 法 多 了 一 个 轴 向 的 选 
择 参 数 ， 以 及 一 个 by 参数 ，by 参数 的 作用 ， 是 针对 某 一 ( 些 ) 列 进行 排序 (不 能 对 行使 用 by 
参数 )。 

例如 : 


from pandas import DataFrame 
dfo=tM Ohou lO or Sh "Temae ld Ele lfornia. [2 gr] 
df=DataFrame (df0,index=["'a','c','d']) 


df 
Out tll: 
California Ohio Texas 
2 0 3 
S 8 6 4 
Q 5 3 1 


df.sort index (by="'Ohio') 


A 
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California Ohio Texas 


a 0 沪 
d 5 3 
(8 8 6 4 


df.sort index{by=["'California','Texas"]) 


GUEST 
California Ohio Texas 
a 2 0 7 
5 8 1 
& 8 6 4 


df .sort index{axis=1) 


Out[4]: 
California Ohio Texas 
各 0 吧 
i 8 6 4 
d 5 号 下 


排名 (Series.rank(method='average”，ascending=True)) 的 作用 与 排序 的 不 同 之 处 在 于 ， 它 


会 把 对 象 的 values 替换 成 名 次 (从 1 到 n)， 对 于 平 级 项 ， 可 以 通过 方法 里 的 method 参数 来 
处 理 ，method 参数 有 4 个 可 选项 : average、min、max、first。 举 例如 下 : 
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>>> ser=Series([3,2,0,3],index=list('abcd')) 


>>> ser 
a 3 
b 
© 0 
d 3 


dtype: int64 


>>> ser.rank() 


a 2 
b 259 
C EQ 
Q S33 


dtype: float64 
>>> ser.rank (method='min') 


a 3 
b 2 
(el 于 
dq 3 


dtype: float64 


>>> ser.rank (method='max') 


第 4 意 Python 数据 分 林 实 及 芭 M 


ON Dy 
Ss BB NY 


dtype: float64 
>>> ser.rank (method='first') 


a 和 

b 这 

这 下 

d 4 

dtype: float64 
> 


入 RE 注意 : ”在 ser[0] 和 ser[3] 这 对 平 级 项 上 ， 不 同 method 参数 表现 出 的 不 同名 次 。 
DataFrame 的 .rank(axis=0, method='average”，ascending=True) 方 法 多 了 axis 参 
数 ， 可 选择 按 行 或 者 按 列 分 别 进 行 排名 ， 暂 时 好 像 没 有 针对 全 部 元 素 的 排名 
2. 重新 索引 


Series 对 象 的 重新 索引 通过 其 .reindex(index=None,**kwargs) 方 法 来 实现 。**kwargs 
中 常用 的 参数 有 两 个 : method=None 和 fill value=np.NaN。 

例如 : 

>>>from pandas import Series 

>>2536T = SETTES Old S60] index=U Dr na or] 

A Eave “ro ce] 


>>> ser.reindex (A) 


a = 

b 2 

S 36 

d 4.5 

e NaN 
dtype: float64 
>>> ser = Ser.reindex (A, fill value=0) 
3 

b A 

G Se6 

qd 4.5 

e 0.0 


dtype: float64 
>>> ser.reindex (A,method="'ffill') 
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1 


dtype: float64 
>>> ser.reindex (A; fill value=0,method="ffill") 
-5.3 


心心 
nn Un 


dtype: float64 


.reindex() 方 法 会 返回 一 个 新 对 象 ， 其 index 严格 遵循 给 出 的 参数 ，method:{‘backfill”， 


‘bfil*"，“pad*，“ffil*"，None} 参 数 用 于 指定 插值 (填充 ) 方 式 ， 当 没有 给 出 时 ， 默 认 用 fill_value 
填充 ， 值 为 NaN(ffill = pad，bfill = back fill， 分 别 指 插值 时 向 前 还 是 向 后 取 值 )。 


DataFrame 对 象 的 重新 索引 方法 .reindex(index=None,columns=None,*#kwargs) 仅 比 


Series 多 了 一 个 可 选 的 columns 参数 ， 用 于 给 列 索 引 。 用 法 与 上 例 Series 类 似 ， 只 不 过 插 
值 方法 method 参数 只 能 应 用 于 行 ， 即 轴 axis = 0。 
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例如 : 


>>> state = ['Texas', 'Utha','California'] 
>>> df.reindex (columns=state,method="'ffill1') 


Texas Utha California 


a 1 NaN 2 
[oe 4 NaN 5 
d 村 | NaN 8 


[二 GASESOCelanmnS] 
>>> df.reindex (index=['a','b','c','d'],columns=state,method="'ffil11l1'"') 


Texas Utha California 


a 1 NaN 2 
b 1 NaN 2 
忆 4 NaN 5 
d 7 NaN 8 


[MEOoOWS SRS COLMNSY 
过 六 六 


可 不 可 以 通过 df.T.reindex(index,method=“**”).T 这 样 的 方式 来 实现 在 列 上 的 插值 呢 ? 
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答案 是 肯定 的 。 另 外 要 注意 ， 使 用 reindex(index,method=“**’) 的 时 候 ，index 必须 是 单调 
的 ， 否 则 就 会 引发 一 个 ValueError: Must be monotonic for forward fill， 比 如 上 例 中 的 最 后 一 
次 调用 ， 如 果 使 用 index=['a’,‘b’”,‘d’”,‘c*]， 就 会 报错 。 


4.3.4 数据 合并 


(1) 记录 合并 一 一 是 指 两 个 结构 相同 的 数据 框 合并 成 一 个 数据 框 ， 也 就 是 在 一 个 数据 
框 中 追加 另 一 个 数据 框 的 数据 记录 : 


concat ([dataFramel, dataFrame2, ...]) 


dataFramel 为 数据 框 。 
返回 值 : DataFrame。 
【 例 4-18】 合 并 两 个 数据 框 ， 即 合并 记录 : 


import pandas 
from pandas import DataFrame 


from pandas import read excel 


dfl = read excel('e://rz2.xlsx') 


总 于 站 
Orit tds 

YHM TES YWXT TE 
Q S1402048 18922254812 1.225790e+17 221 205 098855 
二 "STILL023 T3522255003 让,225790&8+17 183.18452265205 
2 S1402048 13422259938 NaN Zl 22009855 
70031509 10822250753 NaN 22200] .51 200 
SEAOSOLTO L0922253721 1] 225790e+rE7 L205207 04e3 
D2014000 T3422259313 J2207N90e+El 225 3 Sls200 
6 S1404095 138222543413 1.225190e+117 Z221531% 39220 
7 S1402048 13322252452 1.225790e+17 22152.05530 55 
8 SI40501E 18922251681 .225790e+E7 1835184.230.38 
9 STA02048 13322252452. 15225790er17 ZU SD 
TOOolA403001 T8922250V63D 1 57390etLn T83084.230.38 


df2 = read excel('e://rz3.xlsx') 


df£2 
OnEE2l1. 

YHM TCSU YWXT IP 
0 S1402011 18603514812 1.225790e+17 ZL Edd. 
STALTLIOZ22 0 13103515003 1.225790etL7 下 53 L184.226"203 
ZisSid402033 3S2 有 0 和 5 NaN 229 人 5 
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df=pandas.concat ([df1,df2]) 


df 
oUt 
YHM 
S1402048 
S1411023 
S1402048 
20031509 
S1405010 
20140007 
S1404095 
S1402048 
S1405011 
S1402048 
0 S1405011 
S1402011 
S1411022 
S1402033 


| so ROSE 


两 个 文件 的 数据 记录 都 合并 到 一 起 了 ， 实 现 了 数据 记录 的 “ 倒 加 ”或 者 记录 顺延 。 


TGS 
18922254812 
i13922255003 
13422259938 
18822256753 
L892225372I 
T3422259313 
13822254373 
13322252452 
18922257681 
L3322252402 
18922257T681 
18603514812 
131035T5003 
132035593930 


YWXT 

1 225790eT7 
1.225790e+17 

NaN 

NaN 
1.225790e+17 
1:229T90e8+17 
1.225790e+17 
F2257908+17 
1.225790e+17 
1:225'190et+17 
1 .2257908417 
1 225790e+17 
1.225790e+17 

NaN 


EP 
22135205598.55 
L8384:2266205 
221 20030053 
Z2 2 3 0 
L20207NN043 
22231 5 200 
AAA 
a ee 
183.61845230.38 
2Z2]e205e. 8 
183.184.230538 
221 205079855 
183518422605205 
221020% :903535 


(2) 字段 合并 一 一 是 指 对 同一 个 数据 框 中 不 同 的 列 进行 合并 ， 形 成 新 的 列 。 


X = Xl1+X2+ 0, 


xl 为 数据 列 1。 

x2 为 数据 列 2。 

返回 值 : Series， 合 并 后 的 系列 。 要 求 合并 的 系列 长 度 一 致 。 
【 例 4-19】 多 个 字段 合并 成 一 个 新 的 字段 : 


import pandas 
from pandas import DataFrame 


from pandas import read csV 


df = read csv('e://rz4.csv',sep=" ",names=['band','area','num']) 
df 
Bu 
band area num 
0 L890 22250 4612 
a T35022259 5003 
双 S42225°%9938 
3 T1089 2225 6/53 
4 a9 和 2225 53321 


134 
138 
33 
E89 


ww « On 


df = df.astype (str) 
tel=df['band']+df['area']+df["'num"'] 


2220 0313 
2225 4373 
2225 2452 
2225 “1581 


tel 

Out[2] 

0 18922254812 
1 T13522255003 
13422259938 
3 18822256753 
4 TOS2225372. 
5 13422259313 
6 3822254973 
| 13322252452 
8 18922257681 
dtype: object 
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(3) 字段 匹配 一 一 是 指 不 同 结构 的 数据 框 (两 个 或 两 个 以 上 的 数据 框 )， 按 照 一 定 的 条 
件 进 行 合并 ， 即 追加 列 : 


merge (xr yr left. onyright on) 


x 是 第 一 个 数据 框 。 
y 是 第 二 个 数据 框 。 


left_on 是 第 一 个 数据 框 的 用 于 匹配 的 列 。 
right_on 是 第 二 个 数据 框 的 用 于 匹配 的 列 。 


返回 值 : DataFrame。 


【 例 4-20】 按 指定 唯一 字段 匹配 增加 列 : 


import pandas 


from pandas import DataFrame 


from pandas import read excel 


dfl = read excel('e://rz2.xlsx',sheetname='Sheet3') 
df1 
QuEFEEl]: 
id band num 
0 I 130 1123 
E90 3 24 
2 4 se iE 0 
S30 L340 0 
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df2 = read excel('e://rz2.xlsx',sheetname="'Sheet4') 
df2 
outl2l: 
id band area 
站 
L213 352 
2 353 
3 % 133 “354 
上 4 性 ， 二 34 355 
15355 


pandas.merge (df1,df2,1left on="'id',right on="id") 


Ou 


id band x num band y 


下 


BB WY OD 
a oD 


430 
下 专业 
33 
134 
134 


之 对 
124 
25 
126 
126 


130 
也 汪汪 
133 
134 
3 


area 


3 让 
全 5 和 2 
354 
3 
356 


这 里 只 匹配 了 有 相同 序号 的 行 ， 如 dfl 中 没有 id=3， 在 结果 中 也 没有 id=3， 但 是 在 
df2 中 有 两 个 id=5， 在 结果 中 也 有 两 个 id=5， 但 是 只 匹配 第 一 个 id=5。 


4.3.5 ”数据 计算 
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(1) 简单 计算 一 一 通过 对 各 字段 进行 加 、 减 、 乘 、 除 等 四 则 算术 运算 ， 计 算出 的 结果 
作为 新 的 字段 ， 如 表 4-4 所 示 。 
表 4-4 字段 之 间 的 运算 结果 作为 新 的 字段 


id | num | price 

1 123 159 

2 124 753 

3 125 456 

4 126 852 
例如 : 
from pandas import read CsV 
df = read csv('e://r2z2.csVv',sep="','") 
EE 
Qu 


id band num price 
SY 


0 a 


£3 


2 


各 准 莒 | 
2 | i 
E,W ls. 
3 125 456 57000 
4 126 852 107352 


4 ye 人 


(2) 数据 标准 化 一 一 是 指 将 数据 按照 比例 缩放 ， 使 之 落 入 特定 的 区 间 ， 一 般 使 用 0~1 的 区 
间 来 标准 化 : 


例如 : 


wn》 Python 数据 分 析 基础 


下 0.857143 
4 Q:.428571 
3 1.000000 


Name: price, dtype: float64 


4.3.6 ”数据 分 组 


数据 分 组 是 根据 数据 分 析 对 象 的 特征 ， 按 照 一 定 的 数据 指标 ， 把 数据 划分 为 不 同 的 区 


间 来 进行 研究 ， 以 揭示 其 内 在 的 联系 和 规律 性 。 简 单 地 说 : 就 是 新 增 一 列 ， 将 原来 的 数据 
按照 其 性 质 归 入 新 的 类 别 中 。 数 据 分 组 的 语法 如 下 : 
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cut (series,bins,right=True, labels=NULL) 


series 为 需要 分 组 的 数据 。 

bins 为 分 组 的 依据 数据 。 

right 为 分 组 的 时 候 右边 是 否 闭 合 。 

labels 为 分 组 的 自 定义 标签 ， 可 以 不 自 定义 。 

例如 ， 现 有 数据 如 表 4-5 所 示 ， 将 数据 进行 分 组 。 
表 4-5 ”数据 分 组 


3 am m8 te | ay 
a | i | 


请 [aaF | 
一» We pe 
2 os | ee sou 


import pandas 


#from pandas import DataFrame 


from pandas import read CsV 


df = read csv('e:;//rz2.csv',Ssep="',") 
df 
Guts 


id band num price 
让 二 3 E99 
2 3. °° Ff24 753 
QS2 125 456 
4 P33 126 8:32 


I NE i 


bins=[min (df .price)—-1,500,max (df .price)+1] 
labels=["500 DFT™ 500 以 下 中] 
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pandas.cut (df .price,bins) 

Ou] 

0 (CLS58y S500] 

3 (500, 853] 

2 (E87 9000 

3 (SQOD7 453] 

Name: price, dtype: category 

Categories ‘(2, object): [(158, S00] < {500, 853]] 


pandas.cut (df .price,bins,right=False) 

Ot 

0 [158, 500) 

1 [500, 853) 

2 L587 S5009) 

3 LSOUR 053) 

Name: price, dtype: category 

Categories (27 object): [[1i58y 500) < [SQ0, 853)] 


pa=pandas.cut (df .price,bins,right=False,1labels=labels) 


pa 

ut 

0 500 以 下 
E 500 以 上 
2 500 以 下 
3 500 以 上 


Name: price, dtype: category 
Categories (2, object): [500 以 下 < 500 以上] 


df['label']=pandas.cut (df .price,bins,right=False,labels=labels) 
df 
BUG 而 从 

id band num price label 


0 0 24 159 500 以 下 

022 753 500 以 上 

2 132125 456 500 以 下 

3°% 4 S326 852 500 以 上 
4.3.7 “日 期 处 理 


(1) 日 期 转换 一 一 是 指 将 字符 型 的 日 期 格式 转换 为 日 期 格式 数据 的 过 程 : 


to datetime (dateString,format) 
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format 格式 如 下 。 

%Y: 年 份 。 

%m: 月 份 。 

%d: 日 期 。 

%H: 小 时 。 

%M: 分 钟 。 

@ %S: 秒 。 

【 例 4-21】 使 用 to_datetime(df 注册 时 间 , format=‘“%Y/%m/%d’”) 转 换 : 


from pandas import read CSsV 
from pandas import to datetime 


df = read csv('e://rz3.csv',sep=',',encoding='utf8') 


df 
OUut [Ll] 

num price year month date 
Q 123 L590 200.6 1 OLGAGHT 
1 124 13:3 2.0:86 汉 2016/6/2 
2 2S 456 2016 B016/673 
S26 65 26 4 2016/6/4 
4 127 TD 26 5 2909016/0/5 
0 299 0 20 6 2016/6/6 
6 102 699 2016 六 2016/6/7 
T0208 599°2016 8 2016/6/8 
8 154 199 "2016 9 2016/6/9 
9 42 3902086 10 2016/6/10 


df dt = to datetime (df.date, format="%Y/%m/%d") 


Et 

Out[2]: 

0 20E6=06= 习 9 二 
T0200 06 
2 2016=06=03 
3 2016-06-04 
402016=06=05 
5 2016=06=06 
G6 G6 97 
7 .2016=06=-08 
8 2016=06=09 
9 O06=0651D 


Name: date, dtype: datetime64[ns] 
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注意 CSV 的 格式 是 否 是 utf8 格式 ， 否 则 会 报错 。 另 外 ，CSV 里 date 的 格式 是 文本 ( 字 
符 串 ) 格 式 。 
(2) 日 期 格式 化 一 一 是 指 将 日 期 型 的 数据 按照 给 定 的 格式 转化 为 字符 型 的 数据 : 


apply (lambda x: 处 理 逻辑 ) 


处 理 逻 辑 即 datetime.strftime(x,format)。 
【 例 4-22】 日 期 型 数据 转化 为 字符 型 数据 : 


#df_dt = to _datetime (df. 注 册 时 间 ， format='%Y/%m/%d'); 
#qdf at_str = df dt.apply(df. 注 册 时 间 ， format='%Y/%Sm/%d') 


from pandas import read CsV 
from pandas import to datetime 


from datetime import datetime 


df = read csv('e://rz3.csv',sep=',',encoding='utf8') 
df dt = to datetime (df.date,format="%Y/%m/%d") 


df dt str=df dt.apply(lambda x: datetime.strftime (x,"%Y/%m/%d")) 
#apply 见 后 注 

daredt ste 

Out [lle 

2016/06/01 

2016/06/02 

2016/06/03 

2016/06/04 

2016/06/05 

2016/06/06 

2016/06/07 

2016/06/08 

2016/06/09 

2016/06/10 

Name: date, dtype: object 


XO SY A 


3 注意 : ” 当 希 望 将 元 数 f 应 用 到 DataFrame 对 象 的 行 或 列 时 ， 可 以 使 用 .apply(f axis=0， 
args=(), **kwds) 方 法 ，axis=0 表示 按 列 运算 ，axis=1 表示 按 行 运算 。 例 如 : 


from pandas import DataFrame 

df=Datablrame (Ct oniolel[ll dr GG) texasy [LlrAaA bl oalitornLlans [2 on Ldex 
= a 

df 

el 
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california ohio texas 


沁 于 
总 | 忆 4 
qd 8 6 S 
E = lambda x:x.max()-x.min() 
df.apply (f) # 默 认 按 列 运算 ， 同 df .apply (f,axis=0) 
Out 
california 6 
ohio 
texas 


dtype: int64 


df.apply (f, axis=1) # 按 行 运算 


Qk 
a 3 
es 2 
d 过 


dtype: int64 


(3) 日 期 抽取 一 一 是 指 从 日 期 格式 里 面 抽 取出 需要 的 部 分 属性 : 


Data dt ,dt property 


属性 取 值 的 相关 含义 如 下 。 
second 1~60 秒 ， 从 1 开始 到 60。 
minute 1~60 分 ， 从 1 开始 到 60。 


hour 1~24 小 时 ， 从 1 开始 到 24。 

day 1~31 日 ， 一 个 月 中 第 几 天 ， 从 1 开始 到 31。 
month 1~12 月 ， 从 1 开始 到 12。 

year 年 份 。 


weekday 1~7， 一 周 中 的 第 几 天 ， 从 1 开始 ， 最 大 为 7。 
【 例 4-23】 对 日 期 进行 抽取 : 
from pandas import read csv; 


from pandas import to datetime; 


df = read csv('e://rz3.csv',sep=',',encoding='utf8') 


df 
Oat 

num price year month date 
9 23 S9016 1 2016/6/1 
下 于 人 如 T53920126 2 2016/6/2 
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tO 0 GO 
WW ov~ Un 心 


10 
Name: date, dtype: int64 


df ‘dt .dtmonth 
df dt.dt.weekday 
df qdt.dt.second 
df dt.dt.hour 


4.4 数据 分 析 
4.4.1 基本 统计 


基本 统计 分 析 : 又 叫 描 述 性 统计 分 析 ， 一 般 统 计 某 个 变量 的 最 小 值 、 第 一 个 四 分 位 
值 、 中 值 、 第 三 个 四 分 位 值 、 以 及 最 大 值 。 

describe(): 为 描述 性 统计 分 析 函 数 。 

常用 的 统计 函数 如 下 。 

size: 计数 (此 函数 不 需要 括号 )。 

sumO: 求 和 。 

mean(): 平均 值 。 

var0: 方差 。 

std0: 标准 差 。 

【 例 4-24】 数 据 的 基本 统计 : 


from pandas import read_CsV 


df = read csv('e://rz3.csv',sep=',',encoding='utf8') 


df 
Ct 

num price year month date 
0 T5920E6 1 2016/6/1 
1 124 D206 2 2016/672 
2 25 456 2016 3 2016X673 
3” ”26 852 " 20146 4 2016/6/4 
4>°= 27 210 2016 S20L6A6L5 
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ELS 
102 
201 
154 
142 


OF OD el GN nD 


299 
699 
S99 
TS 
899 


2016 
2016 
2016 
2016 
2016 


df .num.describe() 


Oat 21s 

count 10.00000 
mean 133690000 
std SA A 
min 102.00000 
25% T23525009 
50% 125:550000 
75% 138.25000 
max 201.00000 
Name: num, dtype: 


df .nunm 。 
Out 


df .num. 
Ou 


ok he 
Ou Sl 


df annum 
be 


size 
10 


max() 
这 QL 


min() 
102 


sum() 


(DE SG 


10 


float64 


2016/6/6 
2016/6/7 
2016/6/8 
2016/6/9 
2016/6/10 


# 注 意 : 这 里 没有 括号 () 


E339 


df .num.mean () 


SutT i 


ee 
Outt8] 


df .num. 
Out [9] : 


L338 


var() 


T5053222222222221 


stQ() 


9 


27.392010189510046 


4.4.2 ”分 组 分 析 
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分 组 分 析 : 是 指 根据 分 组 字段 将 分 析 对 象 划分 成 不 同 的 部 分 ， 以 对 比分 析 各 组 之 间 差 
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异性 的 一 种 分 析 方 法 。 
常用 的 统计 指标 : 计数 、 求 和 、 平 均值 。 
常用 形式 : 
df .groupby (by=[' 分 类 11',' 分 类 2'，,...])[' 被 统计 的 列 '] .agg ({ 列 别名 1: 统计 函数 1， 
列 别 名 2: 统计 函数 2，.. .}) 
by 一 一 用 于 分 组 的 列 。 
[] 一 一 用 于 统计 的 列 。 
.agg 一 一 统计 别名 ， 显 示 统 计 值 的 名 称 ， 统 计 函 数 用 于 统计 数据 。 


size 一 一 计数 。 
sum 求 和 。 
mean 均值 。 


【 例 4-25】 分 组 分 析 : 


import numpy 


from pandas import read excel 


df = read excel(‘'eée:\\rz4 .xlsx") 


df 
OutLLle 

学 号 班级 姓名 性 别 英语 体育 军训 数 分 高 代 解 几 计算 机 
0 2308024241 23080242 成 龙 男 76 78 77 40 23 60 89 
1 2308024244 23080242 周 怡 女 66 91 75 47 47 44 82 
2 2308024251 23080242 张波 男 85 81 75 45 45 60 80 
3 2308024249 23080242 朱 浩 男 65 50 80 72 62 71 82 
4 2308024219 23080242 封印 女 73 88 92 61 47 46 83 
5 ‘2308024201 23080242 人 迟 培 男 60 50 89 71 ‘76 71 82 
6 2308024347 23080243 李 华 女 67 61 84 61 65 78 83 
7 2308024307 23080243 陈 田 男 76 79 86 69 40 69 82 
8 2308024326 23080243 余 谋 男 66 67 85 65 61 71 95 
9 2308024320 23080243 李 嘉 女 62 60 90 60 67 77 95 
10 2308024342 23080243 李 上 初 男 76 90 84 60 66 60 82 
11 2308024310 23080243 郭 窦 女 79 67 84 64 64 79 85 
12 2308024435 23080244 姜 妆 涛 男 77 71 87 61 73 76 82 
13 2308024432 23080244 赵 宇 男 74 74 88 68 70 71 85 
14 2308024446 23080244 周 路 女 76 80 77 61 74 80 85 
15 2308024421 23080244 林 建 祥 男 72 72 81 63 90 75 85 
16 2308024433 23080244 李 大 强 男 79 76 77 78 70 70 89 
17 2308024428 23080244 李 侧 通 男 64 96 91 69 60 77 83 
18 2308024402 23080244 王 慧 女 73 74 93 70 71 75 88 
19 2308024422 23080244 李 晓 亮 男 85 60 85 72 72 83 89 
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df .groupby (by=[' 班 级 ',' 性 别 '] ) [' 军 训 '] .agg ({' 总 分 ' :numpy.sum, ' 人 数 ': 
numpy .size, ' 平 均值 ' :numpy .mean, ' 方 差 ' :numpy .var, ' 标 准 差 ' :numpy .std, ' 最 高 分 ': 
numpy .max, ' 最 低 分 ' :numpy .min}) 


[全 bE 2 
标准 差 方差 ” 最 高 分 人 数 最 低 分 总 分 平均 值 

班级 性 别 
23080242 女 12.020815 144.500000 92 
6.184658 38.250000 89 
23080243 女 3.464102 12.000000 90 
男 1.000000 1.000000 86 
23080244 女 11.313708 128.000000 93 
田 5.076088 25.766667 Ca 


75 167 83.500000 
75, 32l 30.250000 
84 258 86.000000 
84 255 85.000000 
77 170 85.000000 
W509WNS4033333 


Go NW WW ns ND 


4.4.3 ”分 布 分 析 


分 布 分 析 是 指 根据 分 析 的 目的 ， 将 数据 (定量 数据 ) 进 行 等 距 或 不 等 距 的 分 组 ， 是 研究 
各 组 分 布 规律 的 一 种 分 析 方 法 。 
【 例 4-26】 分 布 分 析 : 


import numpy 
import pandas 


from pandas import read excel 


df = read excel('e:\\rz4.xlsx') 


EE 
ut ls 

学 号 班级 姓名 性 别 英语 体育 军训 数 分 高 代 解 几 计算 机 总 分 
0 2308024241 23080242 成 龙 男 76 78 77 40 23 60 89 443 
1 2308024244 23080242 周 怡 女 66 91 75 47 47 44 82 452 
和 ”08024251 23080242 环流 男友 说 5 本 怒 0 并 的 
3 2308024249 23080242 朱 浩 男 65 50 80 72 62 71 82 482 
4 2308024219 23080242 封印 女 73 88 92 61 47 46 83 490 
5 2308024201 23080242 迟 培 男 60 50 89 71 76 71 82 499 
6 2308024347 23080243 李 华 女 67 61 84 61 65 78 83 499 
7 2308024307 23080243 陈 田 男 76 79 86 69 40 69 82 501 
8 2308024326 23080243 余 找 男 66 67 85 65 61 71 95 510 
9 2308024320 23080243 ” 李 嘉 女 62 60 90 60 67 77 95 511 
10 2308024342 23080243 李 上 初 男 76 90 84 60 66 60 82 518 
11 2308024310 23080243 郭 窦 女 79 67 84 64 64 79 85 522 
12 2308024435 23080244 姜 孝 涛 男 77 71 87 61 73 76 82 527 
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13 2308024432 23080244 赵 宇 男 74 74 88 68 70 71 85 530 
14 2308024446 23080244 周 路 女 76 80 77 61 74 80 85 533 
15 2308024421 23080244 林 建 祥 男 72 72 81 63 90 75 85 538 
16 2308024433 23080244 李 大 强 男 79 76 77 78 70 70 89 539 
17 2308024428 23080244 李 侧 通 男 64 96 91 69 60 77 83 540 
18 2308024402 23080244 王 趟 女 73 74 93 70 71 75 88 544 
19 2308024422 23080244 李 晓 亮 男 85 60 85 ?72 72 83 89 546 


bins = [min (df. 总 分 ) -1,450,500,max (df. 总 分 )+1]  ”# 将 数据 分 成 三 段 


bins 
Cut Sl A Oo00 "Say 


labels=['450 及 其 以 下 ','450 到 500','500 及 其 以 上 '] # 给 三 段 数 据 贴 标签 


labels 
out [5]: ['450 及 其 以 下 '，'450 到 500'，'500 及 其 以 上 '] 


总 分 分 层 = pandas .cut (df .总 分 ,bins,labels=labels) 


总 分 分 层 

Out[7ls 
450 及 其 以 下 
450 到 500 
450 到 500 
450 到 500 
450 到 500 
450 到 500 
450 到 500 
500 及 其 以 上 
500 及 其 以 上 
500 及 其 以 上 
500 及 其 以 上 
500 及 其 以 上 
500 及 其 以 上 
500 及 其 以 上 
500 及 其 以 上 
15 500 及 其 以 上 
16 500 及 其 以 上 
1 500 及 其 以 上 
18 500 及 其 以 上 
19 500 及 其 以 上 
Name: 总 分 ， dtype: category 


0. 0 0 ON 0 


Ppp WW 
A OD NY T R 名 
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Categories (3，object): [450 及 其 以 下 < 450 到 500 < 500 及 其 以 上 ] 


df[' 总 分 分 层 ']= 总 分 分 层 


dE 
[Out8]: 

学 号 班级 姓名 性 别 英语 体育 军训 数 分 高 代 解 几 计算 机 基础 总 分 ”总 分 分 层 
0 2308024241 23080242 成龙 男 76 78 77 40 23 60 89 443 450 及 其 以 下 
1 2308024244 23080242 周 怡 女 66 91 75 47 47 44 82 452 450 到 500 
2 2308024251 23080242 张波 男 85 81 75 45 45 60 80 471 450 到 500 
3 2308024249 23080242 朱 浩 男 65 50 80 72 62 71 82 482 450 到 500 
4 2308024219 23080242 封印 女 73 88 92 61 47 46 83 490 450 到 500 
5 2308024201 23080242 迟 培 男 60 50 89 71 76 71 82 499 450 到 500 
6 2308024347 23080243 李 华 女 67 61 84 61 65 78 83 499 450 到 500 
7 2308024307 23080243 陈 田 男 76 79 86 69 40 69 82 501 500 及 其 以 上 
8 2308024326 23080243 侠 岩 男 66 67 85 65 61 71 95 510 500 及 其 以 上 
9 2308024320 23080243 李 嘉 女 62 60 90 60 67 77 95 511 500 及 其 以 上 
10 2308024342 23080243 李 上 初 男 76 90 84 60 66 60 82 518 500 及 其 以 上 
11 2308024310 23080243 郭 罕 女 79 67 84 64 64 79 85 522 500 及 其 以 上 
12 2308024435 23080244 姜 才 涛 男 77 71 87 61 73 76 82 527 500 及 其 以 上 
13 2308024432 23080244 起 宇 男 74 74 88 68 70 71 85 530 500 及 其 以 上 
14 2308024446 23080244 周 路 女 76 80 77 61 74 80 85 533 500 及 其 以 上 
15 2308024421 23080244 林 建 祥 男 72 72 81 63 90 75 85 538 500 及 其 以 上 
16 2308024433 23080244 李 大 强 男 79 76 77 78 70 70 89 539 500 及 其 以 上 
17 2308024428 23080244 李 侧 通 男 64 96 91 69 60 77 83 540 500 及 其 以 上 
18 2308024402 23080244 王 慧 女 73 74 93 70 71 75 88 544 500 及 其 以 上 
19 2308024422 23080244 李 了 晓 亮 男 85 60 85 72 72 83 89 546 500 及 其 以 上 


df.groupby (by=[ "总 分 分 层 !]) [' 总 分 '] .agg ({' 人 数 ' :numpy.sizel) 


Out[9l]: 

人 数 
总 分 分 层 
450 及 其 以 下 1 
450 到 500 6 


500 及 其 以 上 13 


4.4.4 交叉 分 析 


交叉 分 析 通 常用 于 分 析 两 个 或 两 个 以 上 分 组 变量 之 间 的 关系 ， 以 交叉 表 形 式 进行 变量 
间 关 系 的 对 比分 析 。 一 般 分 为 定量 、 定 量 分 组 交叉 ;定量 、 定 性 分 组 交叉 ; 定性 、 定 型 分 
组 交叉 。 交 叉 分 析 所 使 用 的 分 析 函 数 如 下 : 


pivot tablel(values,index,columns,aggfunc,fill] value) 
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values 一 一 数据 透视 表 中 的 值 。 

index 数据 透视 表 中 的 行 。 

columns 数据 透视 表 中 的 列 。 
aggfunc 统计 函数 。 


fill_value 一 一 NA 值 的 统一 替换 。 
返回 值 : 数据 透视 表 的 结果 。 
【 例 4-27】 交 叉 分 析 : 


import numpy 

import pandas 

from pandas import read excel 

from pandas import pivot table # 在 Spyder 下 也 可 以 不 导入 


df = read excel ( 'e:\\rz4.xlsx') 

bins = [min (df. 总 分 )-1,450,500,max(df. 总 分 )+1] 

labels=['450 及 其 以 下 ','450 到 500','500 及 其 以 上 '] 

总 分 分 层 = pandas .cut (df .总 分 ,bins,labels=labels) 

df[' 总 分 分 层 ']= 总 分 分 层 

df .pivot table (values=[' 总 分 '], index=[' 总 分 分 层 '],columns=[' 性 别 ']， 
aggfunc=[numpy.size,numpy.mean]) 


Ct 
size mean 

总 分 J 
性 别 女 男 女 男 
总 分 分 层 
450 及 其 以 下 NaN 1 NaN 443.000000 
450 到 500 3 3 480.333333 484.000000 
500 及 其 以 上 4 9 527.500000 527.666667 


df .pivot table (values=[' 总 分 '] ,index=[' 总 分 分 层 '] ,columns=[' 性 别 ']， 
aggfunc=[numpy.size,numpy.mean], fill value=0) 


# 也 可 以 将 统计 为 0 的 赋值 为 零 ， 默 认为 nan 


Out [2]: 
size mean 

总 分 总 分 
性 别 女 男 女 男 
总 分 分 层 
450 及 其 以 下 0 1 0.000000 443.000000 
450 到 500 村 3 480.333333 484.000000 
500 及 其 以 上 4 9 527.500000 527.666667 
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4.4.5 ”结构 分 析 


结构 分 析 是 在 分 组 的 基础 上 ， 计 算 各 组 成 部 分 所 占 的 比重 ， 进 而 分 析 总 体 的 内 部 特征 
的 一 种 分 析 方 法 。 
所 使 用 的 函数 如 下 : 


df_ Pt.sum(axis) 
df pt.div(df pt.suml(axis),axis) 


axis 参数 说 明 : 0 表示 列 ; 1 表示 行 。 
【 例 4-28】 结 构 分 析 : 
# 假 设 要 计算 班级 团体 总 分 情况 


import numpy 


import pandas 


from pandas import read excel 
from pandas import pivot table # 在 Spyder 下 也 可 以 不 导入 


df = read excel('e:\\rz4.xlsx') 


df pt = df.pivot table (values=[' 总 分 '],index=[' 班 级 '] ,columns=[' 性 别 ']， 
aggfunc= [numpy.sum]) 


df pt 
GREEN 
sum 
总 分 
性 别 女 男 
班级 


23080242 3425 895 
2308D243 T9323 SS29 
23080244 1077 3220 


df_pt.sum() 

[Bboy 汉 : 
性 别 

sum 总 分 女 S55 
男 6644 


dtype: int64 
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df pt.sum(axis=0) # 效 果 同 省 略 


Ut 
性 别 

sum 总 分 女 35595 和 4 
男 6644 


dtype: int64 


df pt.sum(axis=1) 
Out[4]: 

班级 

23080242 2837 
23080243 3061 
23080244 4297 
dtype: int64 


df pt.div(df pt.sum(axis=1),axis=0) # 按 列 占 比 


人 ES 了 Rs 放风 - 
sum 
总 分 
性 别 女 男 
班级 


230802420053320410.056679559 
23080243 0.500490 0.499510 
23080244 0.250640 0.749360 


df pt.div(df pt.sum(axis=0),axis=1) # 按 行 占 比 


GuUt [6 

sum 

总 分 
性 别 女 男 
班级 


2396024200052652770028S5220 
23080243 0.431428 0.230132 
23080244 0.303295 0.484648 


4.4.6 ”相关 分 析 


相关 分 析 是 研究 现象 之 间 是 否 存在 某 种 依存 关系 ， 并 对 具体 有 依存 关系 的 现象 探讨 其 
相关 方向 以 及 相关 程度 ， 是 研究 随机 变量 之 间 相 关 关 系 的 一 种 统计 方法 。 

相关 系数 可 以 用 来 描述 定量 变量 之 间 的 关系 。 

相关 系数 与 相关 程度 如 表 4-6 所 示 。 
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表 4-6 ”相关 系数 与 相关 程度 


0|r|<0.3 低 度 相关 
0.3 友 中 <0.8 中 度 相 关 
0.8<I<1 高 度 相 关 


相关 分 析 函 数 : 


DataFrame .Corr () 


Series.corr (other) 


如 果 由 数据 框 调用 corr 方法 ， 那 么 将 会 计算 每 列 两 两 之 间 的 相似 度 。 如 果 由 序列 调用 
corr 方法 ， 那 么 只 是 计算 该 序列 与 传 入 的 序列 之 间 的 相关 度 。 


返回 值 : 
@ DataFrame 调用 将 返回 DataFrame。 
Series 调用 将 返回 一 个 数值 型 ， 大 小 为 相关 度 。 
【 例 4-29】 相 关 分 析 : 


import numpy 


import pandas 


from pandas import read excel 


df 
df 


的 A 六 


ON -od OY OI Pe CB 4 


学 号 
2308024241 
2308024244 
2308024251 
2308024249 
2308024219 
2308024201 
2308024347 
2308024307 
2308024326 
2308024320 
2308024342 
2308024310 
2308024435 
2308024432 
2308024446 
2308024421 


班级 ”姓名 性 别 英语 体育 军训 数 分 高 代 解 几 计算 机 基础 总 分 


23080242 
23080242 
23080242 
23080242 
23080242 
23080242 
23080243 
23080243 
23080243 
23080243 
23080243 
23080243 
23080244 
23080244 
23080244 
23080244 


read excel('e:\\rz4.xlsx') 


成 龙 男 
周 怡 女 
张波 男 
朱 浩 ” 男 
封印 女 
述 培 男 
李 华 女 
陈 田 男 
余 卑 男 
李 嘉 女 
李 上 初 男 
郭 窦 女 
姜 妆 涛 男 
2 
周 路 女 


76 
66 
85 
65 
3 
60 
67 
76 
66 
62 


Ne” 90 849 60 66 
9 67 84 ‘64 6&4 
T0761 73 
74 74 88 68 70 


78 
94 
81 
50 
88 
50 
61 
了 9 
67 
60 


WL 
TS 
5 
80 
92 
89 
84 
86 
85 
90 


40 
47 
45 
7 这 
61 
WW 
61 
69 
65 
60 


23 
47 
45 
62 
47 
76 
65 
40 
61 
67 


yt | 
林 建 祥 男 72 72 81 63 90 75 


60 
44 
60 
WE 
46 
5 
78 
69 
yl 
入 
60 
29 
76 
A 
80 


89 443 
2 
80 471 
82 482 
839490 
82 499 
83 499 
82 "501 
Sa 
< 
32°58 
85 522 
S25 2 
B35 S53D 
S83 533 
85 538 
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16 2308024433 23080244 李 大 强 男 79 76 77 78 70 70 89 539 
17 2308024428 23080244 李 侧 通 男 64 96 91 69 60 77 83 540 
1T8 2Z2308024402 23080224 正直 73 74 93 70 71 75 88 544 
19 2308024422 23080244 李 晓 亮 男 85 60 85 72 72 83 89 546 
# 两 列 之 间 的 相关 度 计算 


dal mleorr(arl dv ) 
Out[2]: 0.60774082332601076 


# 多 列 之 间 的 相关 度 计 算 
df.loc[:,[' 英 语 ',' 体 育 ',' 军 训 ',' 计 算 机 基础 ', ' 解 几 ',' 数 分 ' , ' 高 代 ']] .corr () 
CE 

英语 体育 军训 ”计算 机 基础 ” 解 几 数 分 高 代 


英语 1.000000 0.244323 -0.335015 -0.119039 0.027452 -0.129588 -0.125245 
体育 0.244323 1.000000 -0.111315 -0.266896 -0.526276 -0.369766 -0.382447 
军训 -0.335015 -0.111315 1.000000 0.148933 0.249299 0.469226 0.251903 
计算 机 基础 -0.119039 -0.266896 0.148933 1.000000 0.305934 0.123399 0.096979 
解 几 0.027452 -0.526276 0.249299 0.305934 1.000000 0.544394 0.613281 
数 分 -0.129588 -0.369766 0.469226 0.123399 0.544394 1.000000 0.607741 
高 代 -0.125245 -0.382447 0.251903 0.096979 0.613281 0.607741 1.000000 


4.5 ”数据 可 视 化 


4.5.1 饼 图 


饼 图 (Pie Graph) 又 称 圆 形 图 ， 是 一 个 划分 为 几 个 扇形 的 圆 形 统计 图 ， 它 能 够 直观 地 反 


映 个 体 与 总 体 的 比例 关系 。 绘 制 饼 图 的 方法 如 下 : 
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Pie (x,labels,colors,explode,autopct) 

进行 绘图 的 序列 。 

饼 图 的 各 部 分 标签 。 

饼 图 的 各 部 分 颜色 ， 使 用 GRB 标 颜 色 。 
explode 一 一 需要 突出 的 块 状 序列 。 

autopct 饼 图 占 比 的 显示 格式 。 例 如 %.2f: 保留 两 位 小 数 。 
【 例 4-30】 绘 制 饼 图 : 


import numpy 


X 


labels 


colors 


import matplotlib 
import matplotlib.pyplot as plt 


from pandas import read csv 
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df = read csv('e:\\rz20.csv',sep=",") 
3E 
outT nl 
id band num price 
0 J30 天 过 23 159 
2 2 起 E 124 这 二 
2 3 LS2 本 456 
3 4 133 电 信 126 852 


gb=df .groupby (by=['band'],as index=False) ['num'] .agg ({'price':numpy.size}) 


gb 
Out [2] 

band price 
0 130 联通 ll 
1 J 3 1 
2 132 
3 133 电 信 1 
# 为 了 便于 图 中 显示 中 文 


font = {'family':'SimHei'} 

matplotlLD roe( Eont ont 

# 画 饼 图 
plt.pie(gb['price'],1labels=gb['band'],autopct="'$%.2f%%") 
plt.show() 


结果 如 图 4-11 所 示 。 


130 联 通 


地 1 和 3 电信 


图 4-11 饼 图 


X 关 注意 : ” 在 画图 时 ， 所 有 的 字段 中 的 数据 列 含有 中 文 的 要 注意 它 所 保存 的 格式 必须 是 
utf-8， 否 则 会 报错 。 可 以 用 记事 本 打开 看 看 的 格式 ， 方 法 如 图 4-12 所 示 。 
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id, band, num price g 

1 证 1 2 
2, 131; 124, 753 | 

2 125, 5 六 

由 133 电 司 , 126, 852 


Bt ~ 新 到 文 镍 实 
立项 目 A 名 称 
本 此 和 后 0 尽 委 商 洁 
国 Desktop BaiduyunDownload 
| 岂 {us DTLFclder 
KuGou 
= KwDownload 
四 he onedrive 
业 禾 育 厅 公文 
小 六 于 党委 目录 
遍 本 沿 感 让 (C} 辕 -=zo 
a “of (DY) 
一 office [E:] 
sm private (F) | 
人 ve ?| 
文 4[Ni [ED 加 | 
保存 出 亚 (T。 文 杰 立 档 ["bxt) 可 
3 ~ 由 过 
es Wn i | mm | 


4-12 ”存储 为 utf-8 格式 


4.5.2” 散 点 图 


散 点 图 (scatter diagram) 是 以 一 个 变量 为 横 坐 标 ， 另 一 个 变量 为 纵 坐 标 ， 利 用 散 点 (坐标 
点 ) 的 分 布 形态 反映 变量 关系 的 一 种 图 形 。 相 关 的 方法 如 下 : 


plteplot (Xv CooLlor= (rgrb})) 

plt.xlabel('x 轴 坐 标 ') 

plt .ylabel ('y 轴 坐 标 ') 

plt.gridl(True) 

x、y 一 一 X 轴 和 YY 轴 的 序列 。 

Sa So? 小 点 还 是 大 点 。 

Color 一 一 散 点 图 的 颜色 ， 可 以 用 RGB 定义 ， 也 可 以 用 英文 字母 定义 。 
RGB 颜色 的 设置 : (red,green,blue)， 由 红 绿 蓝 颜色 组 成 。 

常用 GRB 颜色 见 表 4-7。 


表 4-7 常用 GRB 颜色 对 照 


(1, 1, 1) #FFFFFF 
(0, 0, 0) #000000 
(1, 0, 0) #FF0000 
(1, 0.5, 0) #FFASOO 
(1, 1, 0) #FFFFOO 
(0, 1, 0) #00FFOO 
(0, 0, 1) #0000FF 
(0.3, 0, 0.5) #4B0082 
(0.63, 0.13, 0.95) #AO20F0 


.7 个 


+ on SD 


例如 : 


import matplotlib 
import matplotlib.pyplot as plt 
from pandas import read csyv 


df = read csv('e:\\rz20.csv',sep="','") 


df 
Out 

id band num Price 
0 0 123 159 
L 2 T3124 753 
2 3 T32025 456 
3 4 133 电信 126 852 
# 为 了 便于 图 中 显示 中 文 


£6nt = {famiLly "SLmer 
matplotlio. reo( font Ss “ftont} 


# 画 | 图 

Plt ploti(tdcl price 二) 
Plt .xlaDeLl( pricGe,) 
plt.ylabel('num') 

plt.grid(True) 

plt.show() 


结果 如 图 4-13 所 示 。 


126.0 
125.5 
125.0 

§ 124.5 
124.0 


123.5 


100 200 300 本 500 00 -0 800 900 


price 


图 4-13 散 点 图 
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4.5.3 ”折线 图 


折线 图 也 称 趋势 图 ， 它 是 用 直线 段 将 各 数据 点 连接 起 来 而 组 成 的 图 形 ， 以 折线 方式 显 
示 数 据 的 变化 趋势 。 相 关 的 方法 如 下 : 


lot (xy = OO) 
title(' 图 的 标题 ') 


-为 画 线 的 样式 。 有 多 种 样式 ， 详 见 表 4-8。 
表 4-8 plot 函数 画 线 样式 释义 


参数 值 说 明 
连续 的 曲线 
和 连续 的 虚线 
as 连续 的 用 带 点 的 曲线 
由 点 连 成 的 曲线 
小 点 ， 散 点 图 
o 大 点 ， 散 点 图 
像素 点 (更 小 的 点 ) 的 散 点 图 
水 五 角 星 的 点 ， 散 点 图 
> 右 角 标 记 散 点 图 
< 左 角 标记 散 点 图 
1(2,3,4 伞 形 上 (下 左右 ) 标 记 散 点 图 
S 正方 形 标记 散 点 图 
五 角 星 标记 散 点 图 
Vv 下 三 角 标 记 散 点 图 
和 ^ 上 三 角 标 记 散 点 图 
h 多 边 形 标记 散 点 图 
d 钻石 标记 散 点 图 


下 例 主要 是 实现 以 学 号 的 后 三 位 为 横 轴 ， 总 分 为 纵 轴 ， 画 折线 图 。 分 三 步 。 

第 一 ， 实 现 提取 学 号 后 三 位 。 

第 二 ， 为 了 实现 按 学 号 后 三 位 排序 ， 就 得 实现 学 号 后 三 位 与 相应 的 总 分 构成 一 对 ， 再 
排序 ， 否 则 学 号 后 三 位 排序 了 ， 但 对 应 不 上 相应 的 总 分 。 

第 三 ， 按 照 学 号 后 三 位 与 总 分 的 序 对 顺序 拆 分 成 listl 和 list2 两 列 ， 再 把 listl 做 成 横 
轴 ，1list2 做 成 纵 轴 。 
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【 例 4-31】 绘制 折线 图 : 


import matplotlib 


from pandas import read excel 


from matplotlib import pyplot as pilt 


df 


Ca ls 


Oe ed OY SA ms to ND tn 


情书 FF 
心 WNRP OO 


5 
和 
于 了 
18 
19 


学 号 
2308024241 
2308024244 
2308024251 
2308024249 
2308024219 
2308024201 
2308024347 
2308024307 
2308024326 
2308024320 
2308024342 
2308024310 
2308024435 
2308024432 
2308024446 
2308024421 
2308024433 
2308024428 
2308024402 
2308024422 


班级 
23080242 
23080242 
23080242 
23080242 
23080242 
23080242 
23080243 
23080243 
23080243 
23080243 
23080243 
23080243 
23080244 
23080244 
23080244 
23080244 
23080244 
23080244 
23080244 
23080244 


# 提 取 学 号 后 三 位 并 打印 出 来 
def right3 (df,a): 


实现 提取 学 号 后 三 位 


list0=[] 


listliellet(asEad 


£0 I iets 


i=str (i) 


list2=i[-3:] 
list0.append (list2) 


return list0 


read excel('e:\\rz4.xlsx',sep=',') 
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姓名 性 别 英语 体育 军训 数 分 高 代 解 几 计算 机 基础 总 分 


成 龙 男 
周 怡 女 
张波 男 
朱 浩 男 
封印 女 
述 培 男 
李 华 女 
陈 田 男 
余 卑 男 
李 嘉 女 
李 上 初 男 
郭 窦 女 
姜 妆 涛 男 
赵 宇 男 
周 路 女 
林 建 祥 男 
李 大 强 男 
李 侧 通 男 
王 慧 女 
李 晓 亮 男 


76 
66 
85 
65 
7 入 
60 
67 
76 
66 
62 
76 
3 
my 


85 


WS 
234 
81 
50 
88 
50 
61 
79 
67 
60 
90 
67 
TL 
74 
80 
V2 
A 
96 
74 
60 


3 
J 
Be 
80 
92 
89 
84 
86 
85 
90 
84 
84 
87 
88 
A 
81 
到 多 
91 
93 
85 


40 
47 
45 
学 
61 
了 二 
61 
69 
65 
60 
60 
64 
61 
68 
61 
63 
78 
69 
70 
72 


23 
47 
45 
62 
47 
76 
65 
40 
i 
67 
66 
64 
TS 
70 
74 
90 
70 
60 
TE 
池 多 


60 
44 
60 
3 
46 
7 
78 
69 
游人 
77 
60 
76 
7 
80 
TS 
70 
gh 
WS 
83 


89 
82 
80 
82 
83 
82 
83 
82 
Bas 
95 
82 
85 
82 
85 
85 
85 
89 
83 
88 
89 


443 
452 
471 
482 
490 
499 
499 
SOL 
510 
S11 
518 
之 2 
Gi 
530 
S33 
538 
539 
540 
544 
546 
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listl= ladftodiltillol torn dd Jn range{tLlen (dt diy) 
liSt2= [QQEEG DECEaROe Len (ds dr) 


# 为 了 便于 图 中 显示 中 文 
font = {family' "Simier 
matpDloLtlib oO("fonNnt' foOnE) 


# 用 '-' 画 顺 滑 的 曲线 ，1ist1 作为 横 轴 ，1ist2 作为 纵 轴 
PIC ploOGGLEStl lls" 

plt .title(' 学 号 与 总 分 折线 图 ') # 图 的 标题 
plt.show() 


Out[5]: [<matplotlib.lines.Line2D at Ox2c7e463e780>] 


结果 如 图 4-14 所 示 。 


学 号 与 总 分 折线 图 


200 250 300 350 400 0 


图 4-14 折线 图 


4.5.4” 柱 形 图 


柱 形 图 用 于 显示 一 段 时 间 内 的 数据 变化 或 显示 各 项 之 间 的 比较 情况 ， 是 一 种 单位 长 度 


的 长 方形 ， 根 据 数 据 大 小 绘制 的 统计 图 ， 用 来 比较 两 个 或 以 上 的 数据 (时 间或 类 别 )。 


./180\. 


涉及 的 主要 方法 如 下 : 

bar (left,height,width,color) 

barh (bottom,width,height,color) 

left x 轴 的 位 置 序列 ， 一 般 采 用 arange 函数 产生 一 个 序列 。 

height 一 一 y 轴 的 数值 序列 ， 也 就 是 柱 形 图 高 度 ， 一 般 就 是 我 们 需要 展示 的 数据 。 
width 一 一 柱 形 图 的 宽度 ， 一 般 设 置 为 1 即 可 。 


color 一 一 柱 形 图 的 填充 颜色 。 
【 例 4-32】 绘 制 柱 形 图 : 


import numpy 


import matplotlib 

from pandas import read excel 

from matplotlib import pyplot as pilt 
df = read excel ("er\\r24.Xl1sx" ,Sep=", ) 
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gb=df .groupby (by=[' 学 号 '])[' 总 分 '] .agg ({' 总 分 ' :numpy .sum}) 


gb 
Ou EL: 


学 号 

2308024201 
2308024219 
2308024241 
2308024244 
2308024249 
2308024251 
2308024307 
2308024310 
2308024320 
2308024326 
2308024342 
2308024347 
2308024402 
2308024421 
2308024422 
2308024428 
2308024432 
2308024433 
2308024435 
2308024446 


index=numpy.arange (gb[' 总 分 '] .size) 


index 

Quit 2] 
array([ 0, 
1 


# 为 了 便于 图 中 显示 中 文 
font = "family SimHei"} 
matpolotlioe To( Font 本 On 


# 竖 向 柱 形 图 


交加 地 


1, 


19]) 


Tr Sl 15, 


(18. 
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plt.title(' 竖 向 柱状 图 : 学 号 -总 分 ') 

BIt Dar(index GDL | 1 CoOLloOr= Oe) 
plt.xticks (index + 1/2,gb.index,rotation=90) 
# 为 了 防止 图 中 的 横 坐 标 数据 重 登 ， 选 择 rotation=90 

plt.show() 


结果 如 图 4-15 所 示 。 


竖 向 柱状 图 : 学 号 -总 分 


相应 的 横向 柱 形 图 代码 如 下 : 


# 横 向 柱 形 图 

Plt .title(' 横 向 柱状 图 : 学 号 -总 分 ') 

Blt. Darh (index/aBl "人 "1,1,cCoLor="G") 
plt.yticks (index + 1/2,gb.index) 
plt.show() 


结果 如 图 4-16 所 示 。 


横向 柱状 图 : 学 号 -总 分 


23089024219 
2308024201 


0 100 200 300 400 500 400 


图 4-16 横向 柱 形 图 


第 4 章 Python 数据 分 析 实 战 : 1 


4.5.5 直方 图 


直方 图 (Histogram) 是 用 一 系列 等 宽 不 等 高 的 长 方形 来 绘制 的 ， 宽 度 表 示 数 据 范围 的 间 
高 度 表 示 在 给 定 间隔 内 数据 出 现 的 频数 ， 变 化 的 高 度 形态 表示 数据 的 分 布 情况 。 
涉及 的 方法 如 下 : 


hist(x,color,bins,cumulative=False) 


需要 进行 绘制 的 向 量 。 

color 一 一 直方 图 填充 的 颜色 。 

设置 直方 图 的 分 组 个 数 。 
cumulative 一 一 设置 是 否 累 积 计数 ， 默 认 是 False。 
【 例 4-33】 绘 制 直方 图 : 


import matplotlib 


X 


bins 


from pandas import read excel 


from matplotiib import pyYPpLIOt: as Plt 


fonti = Eamily suoLrmHielr'd 
matpLloOtLID. LO( EOnt EONnt) 


plt.hist(df[' 总 分 '] ,bins=20,; cumulative=True) 
plt.title(' 总 分 直方 图 ') 
plt.show() 


结果 如 图 4-17 所 示 。 


总 分 直方 图 


0 460 90 500 220 540 560 


图 4-17 直方 图 
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本 章 小 结 


本 章 主 要 学 习 了 利用 Pandas 库 进 行 数据 准备 、 数 据 处 理 、 数 据 分 析 和 数据 可 视 化 等 内 
容 。 尤 其 是 数据 的 整理 清洗 ， 在 数据 分 析 工 作 量 中 占 到 了 很 大 的 比重 。 如 何 快速 地 整理 数 
据 是 本 章 的 重点 。 


练 习 


班主 任 现 有 一 班级 的 两 张 表 ， 如 下 。 


类 
uj 
: 
六 
上 
co 


Python 


16010203 96 
16010210 83 
16010205 82 
16010213 js In |g 
16010215 85 
16010208 69 
16010209 5s |e |» 
16010204 sg | 饥 j |s 
16010211 75 
16010212 69 
16010206 ss so |& 


16010214 


16010207 "|e |s 


姓名 手机 号 码 
张 三 16699995521 
李 四 16699995522 
王 五 16699995523 
赵 六 16699995524 
郑 七 16699995525 
钱 八 16699995526 
张 千 16699995527 
赵 六 16699995528 
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和 让 


续 表 
姓名 手机 号 码 
李 于 16699995529 


张 白 16699995510 
白 九 16699995511 
划 二 16699995512 
余 一 16699995513 


请 帮助 班主 任 做 如 下 工作 。 

(1) 给 成 绩 表 加 上 姓名 列 。 

(2) 给 成 绩 表 加 上 “总 分 ” 列 ， 并 求 出 总 分 。 

(3) 增加 列 字段 “等 级 ”， 标 注 每 人 的 “ 优 、 良 、 中 、 有 及格、 差 ”( 三 90 优 ， 三 80 
良 ， 三 70 中 ， 三 60 及 格 ， < 60 差 )。 

(4) 计算 各 门 课程 的 平均 成 绩 以 及 标准 差 。 

(5) 做 一 总 分 成 绩 分 布 图 ， 纵 坐标 表示 成 绩 ， 横 坐标 表示 学 号 ， 画 出 总 分 的 均 分 横 
线 ， 让 每 位 同学 的 总 分 圆 点 分 布 在 均 分 线 上 下 ， 以 观察 每 位 同学 的 成 绩 离 开 均 分 的 距离 。 


.18s\， 
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5.1 文件 读 写 操作 


Python 提供 了 必要 的 函数 和 方法 进行 默认 情况 下 的 文件 基本 操作 。 
如 读 写 文件 : 


在 


open('D:\\aa.txt") # 打 开 aa.txt 文件 


content = 上 .readQl() # 读 取 aa .txt 文件 的 内 容 


£ 


open('D:\\aa.txt','a+')  #'a+' 指 打开 aa.txt 并 在 文件 尾 可 续 写 


f.write('www.i-nuc.com; \n\t 爱 中 北 '+'\n') 


# 写 入 内 容 ， 写 完 换行 或 者 加 一 行 语句 。f .write('\n') 也 能 实现 写 完 之 后 换行 


f.close() # 及 时 关闭 文件 
打开 一 个 文件 的 不 同 模式 如 表 5-1 所 示 。 


Wi 


a 十 


(18a\. 


表 5-1 打开 文件 的 各 种 模式 


描 述 
打开 一 个 文件 为 只 读 模式 ， 文 件 指针 位 于 该 文件 的 开头 。 这 是 默认 模式 
打开 一 个 文件 ， 只 能 以 二 进 制 格式 读 取 ， 文 件 指 针 置 于 该 文件 的 开头 
打开 用 于 读 取 和 写 入 的 文件 ， 文 件 指针 将 会 在 文件 的 开头 
打开 用 于 读 取 和 写 入 三 进 制 格式 的 文件 ， 文 件 指针 将 会 在 文件 的 开头 
打开 一 个 文件 ， 只 写 ， 如 果 该 文件 存在 ， 则 覆盖 该 文件 ， 如 果 该 文件 不 存在 ， 则 创建 一 个 
新 文件 用 于 写 入 
打开 一 个 文件 ， 只 能 以 二 进 制 格式 写 入 ， 如 果 该 文件 存在 ， 则 履 盖 该 文件 ， 如 果 该 文件 不 
存在 ， 则 创建 一 个 新 文件 用 于 写 入 
打开 用 于 写 入 和 读 取 的 文件 ， 如 果 文 件 存 在 ， 则 覆盖 现 有 的 文件 ;如 果 该 文件 不 存在 ， 则 
创建 一 个 新 文件 用 于 写 入 
打开 用 于 写 入 和 读 取 的 二 进 制 格式 的 文件 ， 如 果 文 件 存在 ， 则 履 盖 现 有 的 文件 ， 如 果 该 文 
件 不 存在 ， 则 创建 一 个 新 文件 ， 用 于 写 入 
打开 追加 文件 ， 文 件 指针 是 在 文件 的 结尾 ， 也 就 是 说 ， 该 文件 处 于 附加 模式 。 如 果 该 文件 
不 存在 ， 则 创建 一 个 新 文件 ， 用 于 写 入 
打开 追加 的 二 进 制 格式 的 文件 ， 文 件 指 针 在 该 文件 的 结尾 ， 也 就 是 说 ， 该 文件 为 追加 模 
式 ; 如 果 该 文件 不 存在 ， 则 创建 并 写 入 一 个 新 的 文件 
打开 为 追加 和 读 取 的 文件 ， 文 件 指针 在 该 文件 的 结尾 ， 该 文件 将 为 追加 模式 ， 如 果 该 文件 
不 存在 ， 则 创建 一 个 新 文件 ， 并 读 取 和 写 入 该 新 文件 
打开 一 个 追加 和 读 取 的 二 进 制 格式 的 文件 ， 文 件 指针 在 该 文件 的 结尾 ， 该 文件 将 为 追加 模 
式 ; 如 果 该 文件 不 存在 ， 则 创建 一 个 新 文件 ， 并 读 取 和 写 入 该 新 文件 
以 二 进 制 的 形式 打开 文件 
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5.1.1 文件 的 读 写 方法 


文件 对 象 提供 了 三 个 “ 读 ” 方 法 : .read0、:readline0 和 .readlinesO0。 每 种 方法 可 以 接 
受 一 个 变量 ， 以 限制 每 次 读 取 的 数据 量 ， 但 它们 通常 不 使 用 变量 。.read0) 每 次 读 取 整个 文 
件 ， 它 通常 用 于 将 文件 内 容 放 到 一 个 字符 串 变 量 中 。 然 而 .read0 生 成 文件 内 容 最 直接 的 字 
符 串 表示 ， 如 果 文 件 大 于 可 用 内 存 ， 则 不 可 能 实现 这 种 处 理 。.readline0 和 .readlinesO 之 间 
的 差异 是 后 者 一 次 读 取 整个 文件 。 像 read0 一 样 ，.readlinesO 自 动 将 文件 内 容 分 析 成 一 个 
行 的 列表 ， 该 列表 可 以 由 Python 的 for .… in ... 结构 进行 处 理 。 另 一 方面 ，.readlineO 每 次 
只 读 取 一 行 ， 通 常 比 .readlinesO 慢 得 多 ， 仅 当 没 有 足够 内 存 可 以 一 次 读 取 整个 文件 时 ， 才 
使 用 .readline()。 

@@ F.read([size]): size 为 读 取 的 长 度 ， 以 byte 为 单位 ， 将 文件 读 入 E 作为 一 个 整体 

字符 串 。 
@ Freadline([size]): 读 一 行 ， 每 操作 一 次 读 取 一 行 ， 如 果 定 义 了 size， 有 可 能 返回 
的 只 是 行 的 一 部 分 ， 同 F.next0 方 法 。 

@ Freadlines([size]): 把 文件 每 一 行 作为 一 个 list 的 一 个 成 员 ， 并 返回 这 个 list。 其 
实 它 的 内 部 是 通过 循环 调用 readline0 来 实现 的 。 如 果 提 供 size 参数 ，size 是 表示 
读 取 内 容 的 总 长 ， 也 就 是 说 ， 可 能 只 读 到 文件 的 一 部 分 。 

@ 下 .write(stD): 把 str 写 到 文件 中 ， 但 write0 并 不 会 在 str 后 加 上 一 个 换行 符 。 

@ 上 .writelines(seq): 把 seq 的 内 容 全 部 写 到 文件 中 。 这 个 函数 也 只 是 机 械 地 写 入 ， 
不 会 在 每 行 后 面 加 上 任何 东西 。 

当 读 取 很 大 的 文件 时 ， 常 用 fileinput 模块 : 

import fileinput 


for line in fileinput inpat('D Maa.txt): 
print (line) 


还 可 以 直接 使 用 for， 也 是 常用 的 模式 之 一 : 


E = open('D:\\aa.txt') 
£fOF Bine Tn €s 


print (line) 
方法 很 多 ， 还 可 以 列表 解析 一 一 使 用 行 函数 (列表 函数 ): 
[line for line in open('D:\\aa.txt')] 


使 用 open 打开 文件 后 ， 一 定 要 记得 调用 close(0 方 法 关闭 文件 。 比 如 可 以 用 try-finally 
语句 来 确保 最 后 能 关闭 文件 : 


.18e\， 
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3 注 


file object = open('thefile.txt") 


try: 


all the text = file object.read() 


finally, 


file object.closel) 


意 : ”不 能 把 open 语句 放 在 try 块 里 ， 因 为 当 打 开 文 件 出 现 异常 时 ， 文 件 对 象 


file_object 无 法 执行 close() 方 法 。 


5.1.2 文件 的 其 他 方法 


文件 的 其 他 方法 说 明 如 下 。 
@ F.close(): 关闭 文件 。Python 会 在 一 个 文件 不 用 后 自动 关闭 文件 ， 不 过 这 一 功能 


没有 保证 ， 最 好 还 是 养 成 “手动 ”关闭 的 习惯 。 如 果 一 个 文件 在 关闭 后 还 对 其 进 
行 操 作 ， 会 产生 ValueError。 


@ F.flush0: 把 缓冲 区 的 内 容 写 入 硬盘 。 

@ FF.fileno0: 返回 一 个 长 整 型 的 “文件 标签 ”。 

@ F.isatty(): 文件 是 否 是 一 个 终端 设备 文件 (Unix 系统 中 的 )。 

@ Etell0: 返回 文件 操作 标记 的 当前 位 置 ， 以 文件 的 开头 为 原点 。 

@ Fnext0: 返回 下 一 行 ， 并 将 文件 操作 标记 位 移 到 下 一 行 。 当 我 们 把 一 个 file 用 于 
for ... in file 这 样 的 语句 时 ， 就 是 调用 nextO0 函 数 来 实现 遍历 的 。 

@@ FF.seek(offset[,whence]): 将 文件 操作 标记 (指针 ) 移 到 offset 的 位 置 ，offset 一 般 是 
相对 于 文件 开头 来 计算 的 ， 一 般 为 正 数 。 但 如 果 提 供 了 whence 参数 ， 就 不 一 定 
了 ，whence 可 以 为 0， 表 示 从 头 开始 计算 ,为 1 表示 以 当前 位 置 为 原点 计算 ， 为 
2 表示 以 文件 末尾 为 原点 计算 。 需 要 注意 ， 如 果 文 件 以 a 或 a+ 的 模式 打开 ， 每 次 
进行 写 操作 时 ， 文 件 操作 标记 会 自动 返回 到 文件 末尾 。 可 以 使 用 F.tell0 查 询 指 针 
当前 的 位 置 。 

@ FF.truncate([size]): 把 文件 裁 成 规定 的 大 小 ， 默 认 的 是 裁 到 当前 文件 操作 标记 的 位 
置 。 如 果 size 比 文 件 的 大 小 还 要 大 ， 依 据 系统 的 不 同 ， 可 能 是 不 改变 文件 ， 也 可 
能 是 用 0 把 文件 补 到 相应 的 大 小 ， 也 可 能 是 以 一 些 随 机 的 内 容 加 上 去 。 

5.1.3 ”文件 的 存储 和 读 取 
1. pickle 
先 看 个 例子 : 
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import pickle 

有 三 四 2 374r5] 

f=open('test01.dat', 'wb') # 将 以 wb 格式 打开 (没有 则 新 建 ) 文件 
pickle.dump (a, ff) # 将 文件 a 存 入 f 中 


f.close() 


这 个 过 程 叫 文件 序列 化 ， 面 对 较 大 对 象 时 ， 建 议 dumpO 使 用 参数 True， 能 够 节省 不 少 
空间 ， 即 上 例 中 可 以 改 为 pickle.dump(a,f,True)。 

文件 存 进去 了 ， 还 需要 能 读 取出 来 ， 继 续 看 例子 : 

f=open('test01.dat', 'rb')  # 将 以 rpb 格式 打开 或 新 建 一 个 文件 


d=pickle.1load (f) # 从 三 中 读 取 
f.close() 


qd 
[1, 2, 3, 4, 5] 


2. shelve 


pickle 可 以 完成 一 些 简单 的 存 取 工作 ， 但 对 更 复杂 的 工作 ， 还 是 有 点 “力不从心 ”。 
于 是 就 有 了 shelve，shelve 的 操作 有 点 像 字 典 ， 更 接近 于 数据 库 。 例 如 : 


import shelve 

s=shelve.open('test02.db') # 打 开 或 新 建 一 个 文件 
s['name']="'yubg'"' # 给 文件 键 赋值 
s['sex’']='man' 

s['age']=40 

sl'demo']=['He is a teacher.'] 

s.close!() 


s=shelve.open('test02.db') 
print (s['name']) # 读 取 s 的 全 部 内 容 时 可 以 使 用 for 来 遍历 


far Yd Ln SR 


Dlrnt (dr i] 


demo: ['He is a teacher. '] 
name: yubg 
sex: man 


age: 40 


但 需要 注意 ， 如 果 要 给 demo 添加 一 些 内 容 ， 可 以 这 样 做 : 


import shelve 
S = shelve.open('test02.db') 
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s['demo'] .append('and he teaches math.'") 


print(s['demo"]) 


['He is a teacher.'] 


从 内 容 上 来 看 ， 好 像 没有 添加 进来 啊 ? 猜 对 了 ! 要 想 添 加 成 功 ， 务 必 在 打开 文件 的 时 
候 多 添加 个 参数 : writeback=True。 例 如 : 

import shelve 

Ss= shelve.open('test02.db',writeback=True) 

sl'demo'] .append('and he teaches math.') 

print(s['demo']) 


s.close() 


['He is a teacher.', '‘'and he teaches math.'] 


说 明 : 在 增加 和 删除 以 及 查询 时 ， 都 要 看 其 类 型 ， 如 demo 是 string， 则 append 是 
添加 不 成 功 的 ， 因 为 str 类 型 就 不 允许 添加 。 本 例 中 是 list， 所 以 添加 成 功 。 
当然 ， 如 果 删 除 name 这 个 key， 可 以 用 del， 但 是 demo 就 不 可 以 了 ， 只 能 
用 .popO。 


S = shelve.open('test02.db') 


del s['name'] 


For Lr Se 


Deen mall 


sex: man 
demo: ['He is a teacher.'] 
age: 40 


5.2 ”with 语句 


with 语句 适用 于 对 资源 进行 访问 的 场合 ， 确 保 不 管 使 用 过 程 中 是 否 发 生 异 常 ， 都 会 执 
行 必 要 的 “清理 ”操作 ， 和 释放 资 源 。 比 如 文件 使 用 后 自动 关闭 、 线 程 锁 的 自动 获取 和 释 
放 等 。 例 如 : 


f = open('D:\\aa.txt') 
ty 

content = f.read!() 
finally: 

f Close() 
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这 段 代码 太 元 长 了 ，with 有 更 优雅 的 语法 ， 可 以 很 好 地 处 理 上 下 文 环境 产生 的 异常 。 


下 面 是 with 版 本 的 代码 ， 自 动 帮 我 们 关闭 文件 : 


with open("/tmp/foo.txt") as 工 : 
data = f.read() 


比较 下 面 两 段 程 序 代码 。 
代码 一 : 
with open(r'fileName') as f: 


FOr Pine Bt fe 
print (line) 
代码 二 : 
f = openl(r'fileName') 
tr 
FOr ine :Ln £: 
print (line) 
firnally: 
f.close() 


比较 起 来 ， 代 码 一 优 于 代码 二 ， 使 用 with 语句 还 可 以 减少 编码 量 。 再 如 : 


with open(r'd:/aa.txt') as f: 
for line En £ 


print (line) 


以 上 三 行 代码 主要 实现 了 以 下 四 项 工作 。@ 打开 D 盘 文件 aa.txt; @ 将 文件 对 象 赋 
值 给 f， 图 将 文件 所 有 行 输出 ，@ 无 论 代码 中 是 否 出 现 异常 ，Python 都 会 关闭 这 个 文 


件 ， 不 必 关 心 这 些 细节 。 


5.3 Anaconda 下 安装 statsmodels 包 


statismodels 是 一 个 Python 包 ， 提 供 一 些 互补 scipy 统 
计 计 算 功 能 ， 包 括 描 述 性 统计 和 统计 模型 估计 和 推断 。 但 
是 ，Anaconda 却 并 不 包含 statismodels 包 ， 需 要 我 们 自 
己 来 安装 。 

若 已 经 安装 了 Anaconda， 则 从 开始 菜单 中 选择 
Windows 系统 中 的 “命令 提示 符 ” 命 令 ， 如 图 5-1 所 示 。 

在 弹出 的 命令 提示 符 窗 口中 ， 输 入 如 下 命令 ， 并 且 按 
Enter 键 : 


用 Windows 竺 统 


pe 
ek 
a 


Windows Defender 


病 任务 管理 各 


命令 提示 符 


控制 面板 


了 文件 资源 管理 器 


5-1 


to~ 


菜单 中 命令 提示 符 
/19aN\. 


mo Python 数据 分 析 基 础 


Conda install statsmodels 


等 待 安装 ， 如 图 5-2 所 示 。 


ft Windows 
Microsoftt 


bg>Conda install 


图 5-2 安装 Python 包 文 件 


如 果 发 现 Anaconda 有 升级 的 文件 ， 根 据 提示 输入 y 即 可 升级 ， 如 图 5-3 和 图 5-4 所 示 。 


5-3” 包 文件 安装 截图 
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B UPDATED: 


大 其 杏 碍 科普 得 简章 拉 和 看 科 


### 


图 5-4 包 文 件 升 级 截图 


5.4 关于 Spyder 表面 恢复 默认 状态 的 处 理 


三 供用 Mpads ns i 鼠标 操作 不 当 ， 


全 Spyder (Python 3.5) 


Fle Edit Scarch Source Run Debug Consolces Tools Vicw Help 


很 可 能 会 将 Spyder 默认 界面 (图 5-5) 的 工 


下 站 [ | € by YR 
| 国 网 :PEED 人 DDO:Plil3 HD 加 :民国 厂 基 A 二 
Editor — C:\Users\yuba\. spyder2-py3\untitled0"** 名 X Object inspector [=e4 
muntitledo. py* 回 Pm untitled0. py bP Source iConsole 了 | Object | = 
1 A 
- ee 2 
5 @aut 2 Here you can get heip of any object by pres 
in front of it. either on the Editor or the Console 
Help can also be shown automatically after w a 
eft parenthesis next to an object You can act Y 
Variable explorer Dbject inspector 
IFython console x 
国 console 174: 回 国 三 


32 bit (Intel)] 


object? 
Xeuiref 


In [1]: 


Type “copyright”, “credits™ 


Python 3.5.1 |Anaconda 2.4.1 (32-bit)| (default, Dec 7 2815, 14:57:35) [MSC v-1966 六 


or “license™ for more information. 


ee 4.9.1 -- An enhanced Interactive Python. 

-> Introduction and overview of IPython's features- 
i -> Quick reference. 
help -> Python'"s own help system. 
-> Details about 
-> A brief reference about the graphical user interface. 


"object’, use ‘object??" for extra details. 


IPython console 


Permissions: RW End-of lines: CRLF 


File explorer 


Encoding: UTF-8 


Console History lozg 


Line: 7 Column: 1 Memory: 55 % 


图 5-5 Spyder 系统 默认 的 界面 


常见 的 处 理 方法 是 选择 菜单 栏 中 的 View 一 Panes 命令 


的 相关 功能 显示 项 。 


令 ， 然 后 在 出 现 的 界面 中 勾 选 需要 


.es\， 


I mm 和 on 数据 分 析 基础 


5-6 所 示 是 一 个 被 拖 动 打 乱 的 界面 ， 我 们 拟 恢复 原来 系统 默认 的 界面 。 


各 Spyder (Python 3.5) 一 口 x 
Fle Edit Search Source Run Debug Consoles Tools View Help 


上 口 , 园 师 : 对 时 广 冰 :ps 二 上 聊 国 :区 FE 大 芭 二 Eee 上 二 他 


[本 回 X Editor — C:\Users\yubg\. spyder2-py3yunt… 加 X Object inspector x 
涛 号 my 过 IEe utitl 国 Pp: Source IConsole 了 | Object v| 可 EE 
-*#- coding 5 人 
3Created on Tue Mar 15 28:54:35 2616 
4 
三 ae yubg Here you can gecheip of any object by 
6 A pressing Crrh in front of it either on the 
ee 1°) Editor or the Console. 
8 
Heilp can also be shown automatically after 
Yariable explorer Dbject inspector 
Profiler 富 x 
v| .yy Wb Frofile 画 :top 
3 曾 outpat 
Function/Modul Total Time Local Time Calls File:line 
IPython conzole x 
< 本 | 区 雪 >| IFython console File explorer Console History log 
Permissions: RW End-of lines: CRLF Encoding: UTF-8 Line: 8 Column: 1 Memory: 54 % 


图 5-6 打 乱 了 的 Spyder 界面 
从 菜单 栏 中 选择 View 一 Panes 命令 ， 如 图 5-7 所 示 。 


| ® Spyder (python 3.5) 了 
File Edit Search Source Run Debug Consoles Tools View Help 


口中 国史 贺 sse Ctr+ Shift+E 
Outline 本 co"=oie A obers 盏 广 
Cc 过 .第 . 计 Wa IPython console Cal+shifttl Attached console window (debugying) 对 
[| [| Variable explorer Ctr+ShifttV 
ni $ 2 Obiect inspector Ctr+Shift+H Fullscreen mode Fi1 中 
3 Maximize current pane Ctrl+Alt+Shift+IM [a 
3 Ne ee Close current pane Ctrl+Shift+F4 器 
3 Outline Ctd+Shift+O 
5 
7 Project explorer Ctr+Shift+P Reset window layout 局 
8 Find in files Ctd+Shift+E Custom window layouts 加 
History log Ctr+Shift+L Verisble explorer Object inspector Tr 
profiler IFython console 加 x 
Breakpoints Ctr+Shift+B 
Static code enalysis 
Online hclp ctd+Sshift+D 
Internal console 
IFython corsole Frofiler 
File explorer 
QOoO0 
Name ~ Size Type Date Madified 
> | Default.migrated File Folder 2015-12-1 15:18:47 本 | 
> 大 Public File Folder 2016-1-31 10:56:44 
s_Eclda DLA D6.:19 vt 
< 大 >||< 加 >| File explorer Console Fistory log 
permissions: RW End-of-lines: CRLF Encoding: UTF-8 Line: 8 Column: 1 Memory: 54 % 


图 5-7 Spyder 中 的 菜单 命令 


另 一 个 方法 是 打开 Windows 的 “开始 ”菜单 ， 找 到 Anaconda3 程序 ， 单 击 打 开 折 苇 菜 
./196\. 


单 ， 选 择 Reset Spyder Settings 命令 ， 如 图 5-8 所 示 。 大 概 等 待 三 五 秒 钟 ， 程 序 将 自动 运行 
并 结束 。 当 再 次 打开 Spyder 时 ， 界 面 已 经 恢复 到 初 装 时 的 默认 状态 。 

Wanaconds ezbm 

Anaconda Cloud © 


Anaconda Prompt Microsoft Edge 


IPython 多 云 


o 16” 
Jupyter Notebook 9 


中 国 山西 省 太 


原市 性 利 街 
259, 030009 


图 5-8 让 Spyder 恢复 默认 设置 的 菜单 命令 


5.5 关于 Python 计算 精度 的 问题 


首先 看 如 下 问题 : 

>>> a=0.1+0.1+0.1-0.3 

>>> "Drint (a) 

Ss oolLlIlSL23l2D/a3Se 

> 

结果 怎么 会 是 5.55e-17 呢 ? 为 什么 不 是 0? 

分 析 : 浮 点 数 的 一 个 普遍 问题 ， 是 它们 不 能 精确 地 表示 十 进 制 数 ， 即 使 是 最 简单 的 数 
学 运算 也 会 产生 小 的 误差 。 

解决 方案 有 如 下 几 种 。 

(1) 使 用 格式 化 (不 推荐 ): 


SS 7 了 
> 


"0.3333333333333333148296102562477 
>>> 


可 以 显示 ， 但 是 不 准确 ， 后 面 的 数字 往往 没有 意义 。Python 默认 的 是 17 位 小 数 的 精 
度 ， 当 我 们 的 计算 需要 使 用 更 高 的 精度 (超过 17 位 小 数 ) 时 ， 就 需要 采取 特殊 的 方法 。 


1197 


wow 区 python 数据 分 析 基础 


数 ， 


(2) 使 用 高 精度 decimal 模块 ， 配 合 getcontext: 


>>> from decimal import * 

>>> print (getcontext () ) 

Context (prec=28, rounding=ROUND HALF EVEN， Emin=-999999, Emax=999999, 
capitals=1, clamp=0, flags=[], traps=[InvalidOperation, DivisionByZero, 
Overflow]) 

>>> getcontext() .prec = 50 

>>> b = Decimal (1) /Decimal (3) 

> 

Decilinal (nO 3 3333033333333333333233333233533333855335333333533323337) 

>>> c = Decimal (1) /Decimal (17) 

SS 
Decimal('0.058823529411764705882352941176470588235294117647059') 

>>> float (c) 

0.058823529411764705 

>>> 


decimal 的 构建 : 可 以 通过 整数 、 字 符 串 或 者 元 组 构建 decimal.Decimal， 对 于 浮 点 
decimal 的 context: decimal 在 一 个 独立 的 context 下 工作 ， 可 以 通过 getcontext 来 获取 


当前 环境 。 人 例如， 前面 曾经 提 到 过 ， 可 以 通过 decimal.getcontext().prec 来 设 定 小 数 点 精度 
(默认 为 28): 


>>> from decimal import Decimal as D 

>>> from decimal import getcontext 

>>> getcontext () 

Context (prec=6, rounding=ROUND HALF EVEN, Emin=-999999999, 
Emax=999999999,， capitals=1, flags=[Rounded, Inexact]， 


traps=[DivisionByZero, InvalidOperation, Overflow]) 


>>> getcontext() .prec = 6 
>S>> [DALY /DC 
Decimal('0.333333") 

>>> 


默认 的 context 的 精度 是 28 位 ， 可 以 设置 为 50 位 甚至 更 高 。 这 样 ， 在 分 析 复 杂 的 浮 


点 数 的 时 候 ， 可 以 有 更 高 的 可 控制 精度 。 例 如 : 
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>>> from decimal import Decimal 
>>> a = Decimal('4.2') 

>>> Db'" 三 Decimal (2.1") 
> ©) 
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Decimal('6.3') 

2 DIUM(a | ) 

(Se 

>>> (a + b) == Decimal('6.3') 
True 

>>> 


3 注意 : ”decimal 中 的 数 要 把 它 当 成 str 来 处 理 ， 即 参加 运算 的 数 要 添加 单 引 号 “?。 


(3) 使 用 decimal 模块 ， 配 合 locacontext: 


>>> from decimal import lJocalcontext 
>>> a = Decimal ("1.37) 
>>> bi = Decimal (1s 7") 
22> DIinEta RE) 
0.7647058823529411764705882353 
>>> with, localcontext() as ctx: 

Ctx. Prec = 3 

Ege Yn 


QOS5 

>>> with localcontext() as ctx: 
ctx.prec = 50 
printta /Db) 


0.76470588235294117647058823529411764705882352941176 
>>> 


总 地 来 说 ，decimal 模块 主要 用 在 涉及 到 金融 的 领域 。 在 这 类 程序 中 ， 哪 怕 是 一 点 小 小 
的 误差 ， 在 计算 过 程 中 都 是 不 允许 的 。 因 此 ，decimal 模块 为 解决 这 类 问题 提供 了 方法 。 

当 Python 和 数据 库 打 交道 时 ， 也 通常 会 遇 到 decimal 对 象 ， 并 且 通 常 也 是 在 处 理 金融 
数据 时 。 

在 有 些 浮 点 数 计算 问题 上 ， 可 以 利用 math 模块 来 解决 ， 例 如 : 


>>> nums = [1.23e+18,;, 1, -1.23e+18] 

>>> sum (nums) # 注意 结果 为 什么 不 是 1? 
SB 

>>> 


上 面 的 错误 可 以 利用 math.fsumO 所 提供 的 更 精确 计算 能 力 来 解决 : 


>>> import math 
>>> math.fsum (nums) 
ls.0 
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>>> 


Math 模块 提供 了 以 下 功能 函数 : 

>>> import math 

>>> dir (math) 

BO Tadove ro n° O00ader 7 9 name "7 "package yy "Spec 7 Tacosns 
"IcosSh yp asiny asinho yy, Tatan yy atan2 yatanhy Cell Toopyeigrn'.s 
"COS ‘cosh degqrees™r "er "erf"y "erfeTy exp "expmluy, fades? 
"Tatorial tr FIOoOrPEy Fmd “frexXp pIfeum oanma roqcd yp nyot'y 
RS 
LOGOLD VOL Tov modE wo rman OE ON raAacLtane my Yelrny 
ML ot tm "Cann twang 

>>> 


5.6 和 矩阵 运算 
5.6.1 创建 德 阵 


矩阵 的 创建 可 以 利用 numpy 包 ， 如 创建 矩阵 A 和 B: 


>>> import numpy as np 
>>> A = mac(lli 2r3lr [4 5G) 
>>> A 
maCrExl 273] 
[SS 


>>> B= [ [ll Se 4 
>>> B= np.array (B) 
>>> B 
arnavit [ls SIs 

[二 11) 
>>> 


在 numpy 里 ，mat 是 matrix 的 一 个 别名 。 
5.6.2 ”和 矩阵 属性 


a.T: 返回 自身 的 转 置 (np.array(B) 构 成 的 矩阵 仅 可 用 此 属性 )。 
a.H: 返回 自身 的 共 斩 转 置 。 

a.I: 返回 自身 的 逆 和 矩阵。 

a.A: 返回 自身 数据 的 二 维 数组 的 一 个 视图 (没有 做 任何 的 拷贝 )。 
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例如 : 


import numpy as np 
a.transpose() 

a.trace() 

np.trace (a) 
np.linalg.inv (a) 
np.linalg.matrix rank (a) 
np.dot (A,B) 
np.linalg.det (a) 

crQ = np.linalg.eig(a) 
np.linalg.norm(a,ord=None) 
np.linalg.cond (a, p=None) 


a.shape 


>>> from numpy import * 
pt i ee 
> DEL (O(a a EE) 


BE .20239760 0 QTL3450292] 
[=0%13450292 


# 求 矩阵 的 秩 : 

>>> import numpy 
>>> i=numpy.eye (4) 
>>> i 


arrav tb O00 


[人 
k Qa (9 vy 0.]， 


[OO 0 


0.08187135]] 


# 返 回 行列 转 置 ， 等 同 于 a.m 
# 计 算 和 矩阵 a 的 迹 

# 计 算 矩 阵 a 的 迹 

# 和 矩阵 a 的 逆 和 珑 阵 

# 求 矩阵 的 秩 

# 和 矩阵 A、B 的 乘积 

# 返 回 的 是 矩阵 a 的 行列 式 
# 和 矩阵 a 的 特征 值 c 和 特征 向 量 a 
# 计 算 矩 阵 a 的 范 数 

# 和 矩阵 a 的 条 件数 

# 可 以 获取 和 矩阵 的 大 小 


>>> numpy.linalg.matrix rank (i) 


4 
>>> 


5.6.3” 解 线性 方程 组 


求 线 性 方程 组 AX=B 的 解 : 
np.linalg.solve (A,B) 
例如 : 


A=np.mat ([[1,2],[3,4]]) 
B=np.mat([[5,6]]).T 
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s=np.linalg.solve (A,B) 


matrix([[-4: ], 


A 


5.6.4 ”线性 规划 最 优 解 


看 一 个 例子 : 小 明 找 到 了 一 份 实习 工作 ， 于 是 想 租 一 个 房子 ， 最 好 离 公 司 近 点 ， 但 是 
还 没 毕业 ， 学 校 时 不 时 还 有 事 ， 所 以 不 能 离 学 校 太 远 ; 而 且 有 时 还 要 去 女 朋 友 那 里 ， 她 希 


望 小 明 就 住 在 她 附近 ， 于 是 小 明 该 如 何 选择 房子 的 地 址 ? 


具体 我 们 假定 公司 、 学 校 、 女 友 在 地 图 上 的 坐标 分 别 是 (1,1)、(4,6)、(9,2)， 求 小 明 的 


租房 坐标 。 


这 里 需要 使 用 scipy 提供 的 scipy.optimize.mininize 方法 ， 首 先 需要 设计 一 个 计算 距离 


的 方程 : 


/20N. 


import numpy as np 


from scipy.optimize import minimize 


# 租 房 到 公司 、 学 校 、 女 友 的 距离 平方 和 最 小 方程 ， 房 子 的 坐标 : [coord[0],coord[1]] 


def ££f(coord,xr YY): 


return np Sum( (coord{l0] -x)**2+ (COOord[lEl -Vy)**2) 


# 把 公司 、 学 校 、 女 友 三 地 的 坐标 保存 在 两 个 向 量 里 
x= np.array([1,4,9]) # 公 司 、 学 校 、 女 友 的 横 坐 标 
y= np.array([1,6,2]) # 人 公司、 学 校 、 女 友 的 纵 坐 标 


# 找 一 个 起 始点 ， 并 看 看 租房 到 三 地 的 距离 平方 和 


initial = np.array([50,5]) <# 随 便 选 一 个 租房 地 址 作为 起 点 


prElrtt( Ee /(Lrnitlal rer) 


# 求 最 优 解 并 打印 
res = minimize(f,initial,args= (x,y)) # 最 优化 
print (res.x) # 打 印 最 优 的 房子 坐标 


Dem (tHres Xr xr yl) 


6224 
[ 4.66666667 3.00000001] 
46.6666666667 


绘制 出 地 图 ， 标 注 上 租房 的 点 house( 如 图 5-9 所 示 ): 


ImMPoOrt matplotlib PyPLlot Aas Olt 
labels = ['company', 'school','girl'] 


生计 其 化 人 


plt.scatter (x, y) # 按 照 x、y 画图 


for 1 in range(3): 
pli AroW (rege rlQOl rr res slil res lilt 
-res .x[1]+v[i],head. length=-0.1,head width=0.1,fce="kKk") 
plt.text (x[i],y[i],labels[i]) 


plt.text (res.x[0],res.x[1],'house') 
Plt.show() 


靖 


6 hool 


3 Use 


1 pany 
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图 5-9 租房 地 点 house 与 其 他 三 地 的 位 置 


5.7 ”正则 表达 式 


字符 串 是 编程 时 涉及 到 的 最 多 的 一 种 数据 结构 ， 对 字符 串 进行 操作 的 需求 几乎 无 处 不 
在 。 比 如 判断 一 个 字符 串 是 否 为 合法 的 E-mail 地 址 ， 虽 然 可 以 编程 提取 @ 前 后 的 子 串 ， 再 
分 别 判 断 是 否 是 单词 和 域名 ， 但 这 样 做 不 但 麻烦 ， 而 且 代 码 难 以 复 用 。 

正则 表达 式 是 一 种 用 来 匹配 字符 串 的 强 有 力 的 工具 。 它 的 设计 思想 是 用 一 种 描述 性 的 
语言 来 给 字符 串 定义 一 个 规则 ， 凡 是 符合 规则 的 字符 串 ， 我 们 就 认为 它 “ 匹 配 ” 了 ， 否 
则 ， 该 字符 串 就 是 不 合法 的 。 

所 以 ， 判 断 一 个 字符 串 是 否 为 合法 的 E-mail 的 方法 如 下 。 

(1) 创建 一 个 匹配 E-mail 的 正则 表达 式 。 

(2) 用 该 正则 表达 式 去 匹配 用 户 的 输入 ， 判 断 是 否 合 ; 
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因为 正则 表达 式 是 用 字符 串 表 示 的 ， 所 以 要 首先 了 解 如 何 用 字符 来 描述 字符 。 

1. 准备 知识 

在 正则 表达 式 中 ， 如 果 直 接 给 出 字符 ， 就 是 精确 匹配 。 用 \d 可 以 匹配 一 个 数字 ， 用 \w 
可 以 匹配 一 个 字母 或 数字 ， 用 英文 句点 可 以 匹配 任意 字符 ， 所 以 : 


‘00\d 一 一 可 以 匹配 ‘007”"， 但 无 法 匹配 :00A*， 也 就 是 说 ，‘00’ 后 面 只 能 是 数字 。 
dd\d: 一 一 可 以 匹配 :010:， 只 可 匹配 三 位 数字 。 
wiWww\d 一 一 可 以 匹配 ‘py3”， 前 两 位 可 以 是 数字 或 者 字母 ， 但 是 第 三 位 只 能 是 数字 。 


“py. 一 一 可 以 匹配 ‘pyc”*、‘pyo”、“py!" 等 。 

在 正则 表达 式 中 ， 用 * 表 示 任 意 个 字符 (包括 0 个 )， 用 + 表示 至 少 一 个 字符 ， 用 ?表示 0 
个 或 1 个 字符 ， 用 {fn} 表示 n 个 字符 ， 用 {n,m} 表示 n 到 m 个 字符 。 

下 面 看 一 个 复杂 的 例子 : \d{3}\sth\d{3,8}。 

从 左 到 右 解 读 如 下 。 

(1) \d{3} 表 示 匹 配 3 个 数字 。 例 如 ‘010’。 

(2) \'s 可 以 匹配 一 个 空格 (也 包括 Tab 等 空白 符 )， 所 以 \s+ 表 示 至 少 有 一 个 空格 。 例 如 
殉 醒 和 和。 

(3) \d{3,8} 表 示 3~8 个 数字 。 例 如 ‘1234567’。 

综合 起 来 ， 上 面 的 正则 表达 式 可 以 匹配 以 任意 个 空格 隔 开 的 区 号 为 3 个 数字 、 号 码 为 
3~8 个 数字 的 电话 号 码 。 如 “021 8234567’。 

如 果 要 匹配 '010-12345? 这 样 的 号 码 呢 ? 由 于 -是 特殊 字符 ， 在 正则 表达 式 中 ， 要 用 所 
转 义 ， 所 以 正则 式 应 该 是 \d{3}\-\d{3,8}。 

但 是 ， 仍 然 无 法 匹配 ‘010 - 12345”， 因 为 这 里 -* 两 侧 带 有 空格 。 所 以 需要 更 复杂 的 匹 
配方 式 : 

2. 进 阶 

要 做 更 精确 的 匹配 ， 可 以 用 [] 表 示范 围 ， 比 如 : 

[0-9a-zA- 奴 ] 一 一 可 以 匹配 一 个 数字 、 字 和 母 或 者 下 划 线 。 

[0-9a-zA- 妈 ]+ 一 一 可 以 匹配 至 少 由 一 个 数字 、 字 和 母 或 者 下 划 线 组 成 的 字符 串 ， 比 如 
‘a100”、‘0_Z”、“‘Py3000* 等 。 

[a-zA- 巡 _][0-9a-zA-Z\_]* 一 一 可 以 匹配 由 字母 或 下 划 线 开头 ， 后 接任 意 个 由 一 个 数字 、 
字母 或 者 下 划 线 组 成 的 字符 串 ， 也 就 是 Python 合法 的 变量 。 

[a-zA-Z\ ][0-9a-zA-Z\ ]{0，19} 一 一 更 精确 地 限制 了 变量 的 长 度 是 1~20 个 字符 (前 面 1 
个 字符 + 后 面 最 多 19 个 字符 )。 
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AIB 可 以 匹配 A 或 B， 所 以 (Plp)ython 可 以 匹配 ?Python 或 者 "python'” 。 
^ 表 示 行 的 开头 ，A\d 表示 必须 以 数字 开头 。 
$ 表 示 行 的 结束 ，\d$ 表 示 必 须 以 数字 结束 。 
应 注意 ，py 也 可 以 匹配 ‘python*， 但 加 上 ^py$ 就 变 成 了 整 行 匹 配 ， 就 只 能 匹配 ‘py 了。 
具体 的 正则 表达 式 常 用 符号 见 表 5-2。 
表 5-2 正则 表达 式 的 常用 符号 


符号 匹配 结果 

匹配 前 面 的 字符 、 表 达 式 或 括号 里 的 字符 0 

匹配 前 面 的 字符 、 表 达 式 或 括号 里 的 字符 至 

坟 atb+ aabbb、abbbbb、aaaaab 
2 A、Ab 
| 匹配 任意 单个 字符 ， 包 括 数字 、 空 格 和 符号 | bd | bad、b3d、bfd 
中。 | 下 配 0 内 的 任意 一 个 字符 , 即 任远 个 | [aa* | zero、hello 
\ 人 
人 apple、aply、asdfe 

经 常用 在 表达 式 的 末尾 ， 表 示 从 字符 串 的 末 

端 匹 配 ， 如 果 不 用 它 ， 则 每 个 正则 表达 式 的 ABDxerok、Gplu、 
实际 表达 形式 都 带 有 .* 作 为 结尾 。 这 个 符号 | [可 ”| yubg、YUBEG 

可 以 看 成 ^ 符 号 的 反义词 

bid、bird、bad 

和 全 es 除了 大 写字 母 以 外 的 所 有 
?1 Ne ee ^((?![A-Z]).)*$ | 字母 字符 均 可 : nu-here、 

某 整 个 字符 串 中 全 部 排除 某 个 字符 ， 就 要 加 aa 

上 ^ 和 3 符号 
0 表达 式 编组 ，() 内 的 正则 表达 式 会 优先 运行 ”| (a*b)* 

abaaaabaaaabaaab 

匹配 前 面 的 字符 串 或 者 表达 式 m 到 n 次 ， gooogle、goooogle、 
ima 包含 m 和 n 次 gooooogle、goooooogle 
\D 匹配 一 位 非 数字 3A、3a、3- 
ww 匹配 一 个 字母 或 数字 By, how 
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3. re 模块 

有 了 准备 知识 ， 就 可 以 在 Python 中 使 用 正则 表达 式 了 。Python 提供 re 模块 ， 包 含 所 
有 正则 表达 式 的 功能 。 

由 于 Python 的 字符 串 本 身 也 用 \ 转 义 ， 所 以 要 特别 注意 : 

s = "ABCNN-001' #Python 的 字符 串 

对 应 的 正则 表达 式 字 符 串 变 成 : 


# 'ABC\-001' 

因此 强烈 建议 使 用 Python 的 r 前 级 ， 就 不 用 考虑 转 义 的 问题 了 : 
s = r'ABC\-001' #Python 的 字符 串 

对 应 的 正则 表达 式 字 符 串 不 变 : 

# 'ABC\-001' 

先 看 看 如 何 判 断 正 则 表达 式 是 否 匹 配 : 


>>> import re 

>>> Te Mota(r NALOTN= toe L02345.) 

< sre.SRE Match object; span=(0, 9), match='010-12345'> 
>>> KGAnacchR2SNOtSTNENOIS SS yy "OLO L2345%) 


>>> 
match0 方 法 判断 是 否 匹 配 ， 如 果 [ 匹 配 成 功 ， 返 回 一 个 Match 对 象 ， 否 则 返回 None。 
常见 的 判断 方法 是 : 


test = ' 用 户 输入 的 字符 串 ' 

if re.match (r' 正 则 表达 式 '， test): 
mt (OK 

else: 
Brint ("talleco) 

# 输 出 : 

failed 


4. 切 分 字符 串 
用 正则 表达 式 切 分 字符 串 比 用 固定 的 字符 更 灵活 ， 请 看 正常 的 切 分 代码 : 


> oi LO) 
国光 这 2 汪汪 Ee 7 二] 
>>> 


执行 上 面 代码 ， 结 果 显 示 ， 无 法 识别 连续 的 空格 。 下 面 运行 正则 表达 式 试 一 下 : 
.1/2o6\， 


和 5 本 二 入 党 于 于 


>>> Tesplit(e Not a D0 
= No | 


>>> 


无 论 多 少 个 空格 都 可 以 正常 分 割 。 下 面 加 入 “\,” 试 试 : 


>>> eveoplit(e riNe\ et amy cd 
bE 0 se i 
>>> 


再 加 入 “\” 试 试 : 


pl NS D0 0 
[中 双生 Cc | 
SD> 


如 果 用 户 输入 了 一 组 标签 ， 可 以 用 正则 表达 式 把 不 规范 的 输入 转化 成 正确 的 数组 。 
5. 分 组 


除了 简单 地 判断 是 否 匹 配 之 外 ， 正 则 表达 式 还 有 提取 子 串 的 强大 功能 。 用 0 表示 的 即 
是 要 提取 的 分 组 (Group)。 

例如 ^Qd{3})-Qd{3,8})$ 分 别 定义 了 两 个 组 ， 可 以 直接 从 匹配 的 字符 串 中 提取 出 区 号 和 
本 地 号 码 : 


SS TM 2 PE Maeh(E "(dS = NE 0 9, OO0=T2345") 
> 

< Sre,SRE Mateh object; span=:(0, ‘9)» match="010=12345"> 
>>> m.group (0) 

"OL0=12349" 

>>> MGroOup'(l) 

"010" 

>>> m.group (2) 

"T12345" 

>>> 


如 果 正 则 表达 式 中 定义 了 组 ， 就 可 以 在 Match 对 象 上 用 group0 方 法 提取 出 子 串 。 
注意 到 group(0) 是 原始 字符 串 ，group(1)、group(2)、…… 表示 第 1、2、…… 个 于 市 
提取 子 串 非常 有 用 ， 例 如 : 


> 

>>> m = re.match{(r'^(0[0~9] 1|1[0~-9] 12[0=3] 1 [0=-9])\: (0O[0=9]11[0=-9]12[0= 
NO A IS Oo (Oo Ol aL 
39] 00=9])S 二) 

>>> m.groups () 
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(SR os So 
>>> 


这 个 正则 表达 式 可 以 直接 识别 合法 的 时 间 。 但 有 些 时 候 ， 用 正则 表达 式 也 无 法 做 到 完 


全 验证 ， 比 如 识别 日 期 : 


(oD sO Ls 


对 于 ‘2-30”"、“4-31’ 这 样 的 非法 日 期 ， 用 正则 还 是 识别 不 了 ， 或 者 说 写 出 来 非常 困难 ， 


这 时 就 需要 程序 配合 识别 了 。 


6. 贪 梦 匹 配 

最 后 需要 特别 指出 的 是 ， 正 则 匹配 默认 是 贪 林 匹配， 也 就 是 匹配 尽 可 能 多 的 字符 。 
举例 如 下 ， 匹 配 出 数字 后 面 的 0: 
| 

(EQZSO0L 7) 

>>> 

由 于 \d+ 采 用 贪 禁 匹 配 ， 直 接 把 后 面 的 0 全 部 匹配 了 ， 结 果 0* 只 能 匹配 空 字符 串 了 。 
必须 让 \d+ 采 用 非 贪 禁 匹 配 ( 也 就 是 尽 可 能 少 匹 配 )， 才 能 把 后 面 的 0 匹配 出 来 ， 加 个 ? 


就 可 以 让 \d+ 采 用 非 仿 禁 匹配 : 


>>> re matceh(r MNadrt2) (COs “L02300") .grounst() 
人 
> 


7. 编译 


当 我 们 在 Python 中 使 用 正则 表达 式 时 ，re 模块 内 部 会 做 两 件 事情 。 

(1) 编译 正则 表达 式 ， 如 果 正 则 表达 式 的 字符 串 本 身 不 合法 ， 会 报错 。 

(2) 用 编译 后 的 正则 表达 式 去 匹配 字符 串 。 

如 果 一 个 正则 表达 式 要 重复 使 用 几 千 次 ， 出 于 效率 的 考虑 ， 我 们 可 以 预 编译 该 正则 表 


达 式 ， 接 下 来 重复 使 用 时 ， 就 不 需要 编译 这 个 步骤 了 ， 可 以 直接 匹配 : 
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>>> import re 

# 编 译 : 

>>> re telephone = re.compile(r'^(\d{3})-(\d{3,8})$') 
# 使 用 : 

>>> re telephonematch('010-=-12345"') sgroups() 

CO Od) 

>>> re telephone.match('010-8086') .groups () 

COTO S080 


和 5 本 二 入 六 于 于 


>>> 


编译 后 生成 Regular Expression 对 象 ， 由 于 该 对 象 自己 包含 了 正则 表达 式 ， 所 以 调用 对 
应 的 方法 时 ， 不 用 给 出 正则 字符 串 。 


5.8 ”使 用 urllib 打开 网 页 


Python 的 webbrowser 模块 文 持 对 浏览 器 进行 一 些 操 作 ， 主 要 有 三 种 方法 。 
代码 如 下 : 


import webbrowser 


webbrowser .open (url, new=0, autoraise=True) 
webbrowser.open new(url) 


webbrowser.open new tab (url) 


首先 了 解 webbrowser.open() 方 法 : 


webbrowser .open (url, new=0, autoraise=True) 


在 系统 的 默认 浏览 器 中 访问 url 地 址 ， 如 果 new=0，url 会 在 同一 个 浏览 器 窗口 中 打 
开 ; 如 果 new=1， 新 的 浏览 器 窗口 会 被 打开 ; new=2 时 新 的 浏览 器 tab 会 被 打开 。 而 
webbrowser.get() 方 法 可 以 获取 到 系统 浏览 器 的 操作 对 象 。 使 用 webbrowser.register0 可 以 注 
册 浏 览 器 类 型 。 

例如 : 


#-*— coding:UTF-8 -*-— 

import webbrowser 

Url = 'http://www.i-nuc.com/iNUC/' 
webbrowser .open (url) 

print (webbrowser.get()) 


这 样 就 可 以 打开 一 个 网 站 页 面 ， 但 使 用 的 是 默认 下 打开 的 ， 如 果 想 用 360 浏览 器 打 
开 ， 方 法 如 下 : 


import webbrowser 
BrowserPath = r'C:\Users\yubg\AppData\Roaming\360se6\Application\360se.exe' 
webbrowser.register('360', None, 

webbrowser.BackgroundBrowser (BrowserPath)) 


webbrowser.get('360') .open new tabl('http://www.i-nuc.com/iNUC/') 


而 使 用 urllib 模块 打开 网 站 ， 整 个 程序 只 需 用 两 行 代码 即 可 : 


import urllib 
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print (urllib.request.urlopen('http://www.i-nuc.com/iNUC/') .read()) 


在 Python 2.x 版 本 中 可 以 直接 使 用 import urllib 来 进行 操作 ， 但 是 3.x 版 本 的 Python 
中 ， 使 用 的 是 import urllib.request 来 进行 操作 。 
urlopen 方法 的 格式 : 


urllib.request.urlopen(url[, datal[l, proxies]]) 


参数 url 表示 远程 数据 的 路 径 ， 一 般 是 网 址 ， 参 数 data 表示 以 post 方式 提交 到 url 的 
数据 (提交 数据 的 两 种 方式 为 post 与 get。 如 果 不 清 楚 ， 也 不 必 太 在 意 ， 一 般 情况 下 很 少 用 
到 这 个 参数 );， 参数 proxies 用 于 设置 代理 (这 里 不 详细 介绍 怎样 使 用 代理 ， 感 兴趣 的 读者 可 
以 去 翻阅 Python 手册 的 urllib 模块 )。 

urlopen 返回 一 个 类 文件 对 象 ， 它 提供 了 下 列 方法 。 

®@ +*read()、readline()、readlines()、fileno()、closeO0: 这 些 方法 的 使 用 方式 与 文件 对 

象 完全 一 样 。 
@ +#info0: 返回 一 个 httplib.HTTPMessage 对 象 ， 表 示 远 程 服务 器 返回 的 头 信 息 。 
@ *getcode0: 返回 HTTP 状态 码 。 如 果 是 HTTP 请 求 ，200 表示 请 求 成 功 完成 ; 
404 表示 网 址 未 找到 。 

@  *geturl0: 返回 请 求 的 url。 

对 上 面 的 代码 进行 扩充 ， 可 以 运行 下 面 的 例子 ， 加 深 对 urllib 的 印象 : 

import urllib 

print (urllib.request.urlopen('http://www.i-nuc.com/iNUC/') .read() ) 

inuc = urllib.request.urlopen('http://www.i-nuc.com/iNUC/') 

print ('http header:\n', inuc.info()) 


print(l http Statuss yy noe:detcodet(t)) 

ED 

fOr Tine dn na # 就 像 在 操作 本 地 文件 
print (line) 


inuc.close() 


urlretrieve 方法 的 格式 : 


urllib.request.urlretrieve(url[, filename[, reporthook[, datal]l]l]) 


urlretrieve 方法 直接 将 远程 数据 下 载 到 本 地 。 参 数 filename 指定 了 保存 到 本 地 的 路 径 
(如 果 未 指定 该 参数 ，urllib 会 生成 一 个 临时 文件 来 保存 数据 ); 参数 reporthook 是 一 个 回调 
函数 ， 当 连接 上 服务 器 ， 以 及 相应 的 数据 块 传输 完毕 的 时 候 ， 会 触发 该 回调 。 可 以 利用 回 
调 函 数 来 显示 当前 的 下 载 进 度 ， 下 面 的 代码 将 会 展示 。 人 参数 data 指 post 到 服务 器 的 数据 。 
该 方法 返回 一 个 包含 两 个 元 素 的 元 组 (filename，headers)，filename 表示 保存 到 本 地 的 路 
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径 ，header 表示 服务 器 的 响应 头 。 
下 面 通过 例子 来 演示 这 个 方法 的 使 用 ， 本 例 将 “ 爱 中 北 ” 首 页 的 HTML 抓 取 到 本 地 ， 
保存 在 Di\i-nuc.html 文件 中 ， 同 时 显示 下 载 的 进度 。 程 序 如 下 : 


def cbk(a, b; c): 
回调 函数 
ea: 已 经 下 载 的 数据 块 
eb: 数据 块 的 大 小 
ec: 远程 文件 的 大 小 
Per = 100.0 *a*bl/c 
a 6 0 


Per = 100 
print('%.2f%%' % per) 
url = 'http://www.i-nuc.com' 


local = 'd:\\i=nuc.html! 


urllib.request.urlretrieve(url, local, cbk) 
运行 结果 如 图 5-10 所 示 。 
In [1]: import urllib 
“oe ef chktns bs Cy: 
回调 函数 
@a: 已 经 下 载 的 数据 块 
@b: 数据 块 的 大 小 
@c: 远程 文件 的 大 小 
RE = 
if per > 106: 
per = 166 
print('%.2f%%' % Per) 
二 url = "http://wmw.i-nuc.com' 
: local = 'd:\\i-nuc.html" 
.7 Urllib.request.urlretrieve(url, local, cbk) 
188 .68% 
Out[1]: ('d:\\i-nuc.htm]l'’, <http.client.HTTPMessage at 9xcf29919>) 


En 2 
5-10 ”运行 结果 


urllib 中 还 提供 了 一 些 辅 助 方 法 ， 用 于 对 url 进行 编码 、 解 码 。 

url 中 不 能 出 现 一 些 特殊 的 符号 ， 有 些 符号 有 特殊 的 用 途 。 我 们 知道 ， 以 get 方式 提交 
数据 的 时 候 ， 会 在 url 中 添加 key = value 这 样 的 字符 串 ， 所 以 在 value 中 不 允许 有 “=”， 
因此 要 对 其 进行 编码 ; 与 此 同时 ， 服 务 器 接收 到 这 些 参数 的 时 候 ， 要 进行 解码 ， 还 原 成 原 
始 的 数据 。 
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5.9 网 页 数据 抓 取 


这 里 给 出 用 Python 抓 取 一 个 网 站 跟 帖 回复 的 例子 。 
知 乎 网 上 有 一 个 标题 为 “已 经 有 女 朋 友 了 ， 但 又 遇 到 更 喜欢 的 对 象 怎 么 办 ? ”的 帖 


子 ， 里 面 的 一 些 回复 实在 很 搞笑 ， 但 是 一 页 一 页 地 看 又 有 点 麻烦 ， 于 是 想 全 部 “让 ” 下 来 
存放 到 一 个 文件 里 ， 这 样 ， 就 可 以 随时 查看 到 全 部 的 回复 内 容 了 。 


本 节 主 要 使 用 Python 实现 简单 的 网 络 候 取 ， 以 获取 帖子 的 全 部 回复 。 

工具 : Anaconda 3。 

网 址 : https:/www.zhihu.com/question/19649693。 

任务 : 将 图 5-11 中 框 起 来 的 部 分 候 下 来 ， 放 到 一 个 TXT 文件 中 。 

步骤 : 利用 Python 的 BeautifulSoup 模块 ， 将 网 页 内 容 收纳 到 容器 soup 中 ; 再 在 soup 


中 搜索 所 有 回复 的 标识 标签 ; 然后 将 搜索 出 的 内 容 遍 历 出 来 ; 最 后 建立 一 个 TXT 文件 ， 
并 将 遍历 结果 写 入 此 文件 中 。 


已 经 有 女 朋友 了 ， 但 又 地 到 更 襄 欢 的 对 象 怎么 办 ? “ “六 

我 绝对 不 是 荣 励 一 心 二 用 ， 只 是 命运 很 奇妙 。 如 时 你 已 经 有 对 惫 了 ， 在 其 人 还 没 出 现 前 都 十 分 美好 ， 
但 蔓 人 出 更 后 ， 发 现 堆 比 你 现在 的 对 银 洒 亮 、 有 钱 、 旭 逆 ， 而 且 是 街 过 相处 后 ， 不 是 那 种 只 有 外 去 的 
幻想 . 重点 是 这 个 对 条 刚 好 也 支 欢 你 - 

从 人 人 上 上 王 知 到 的 ， 不 知 运 你 们 速 到 了 会 怎么 去 做 。 

人 人 链 按 : blog renren com/blog/33 己 民 修改 


蔬菜 ， 订 赔 号 bocai_zhu / 光 宝 ; 沽 芝 五味 后 :后 主 | 


a 
3911 ”要 新 党 容纳 尔 隐 、 上 斯 特 没有 且 季 、 芝 士 就 时 力量 等 人 稀 辣 收录 于 知 平 疝 刊 
3 


借 这 个 汇 方 我 椒 说 下 关系 的 分 类 ,为 什么 我 们 有 许多 见 异 思 渤 还 双 输 的 故事 , 我 个 人 认为 是 大 家 过 玫 


图 5-11 网 页 截图 


(1) 准备 工作 。 先 分 析 网 页 的 源 代码 ， 找 到 回复 的 标识 符 。 
在 网 页 界面 按 下 F12 键 ， 如 图 5-12 所 示 。 
单 击 界面 上 的 B 处 (DOM 资源 管理 器 )， 再 单 击 C 处 (DOM 元 素 突 出 显示 )， 当 把 鼠标 


放 到 D、E 区 域 时 ， 就 会 发 现 A 区 域 有 突出 高 亮 显 示 。 下 面 的 D、E 区 域 的 每 一 个 div 标 
签 都 对 应 着 上 面 A 区 域 相 应 的 小 区 域 。 找 到 区 域 A 中 的 回复 和 下 面 区 域 D、E 相对 应 处 ， 

这 里 提取 D 或 者 EE 均 可 ,不 过 E 比较 “干净 ”， 所 以 就 选取 EEE。 其 实 可 以 验证 ， 只 要 是 回 
复 部 分 的 内 容 ， 它 的 标签 都 是 class=“zm-editable-content clearfixz”， 所 以 只 要 找到 它 的 共 
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性 ， 再 把 它们 全 部 找 出 来 即 可 ， 这 是 爬 取 的 关键 一 步 。 


已 经 有 女 朋 友 了 ， 但 又 过 到 更 襄 欢 的 对 象 怎么 办 ? 人 = 


14205 人 关 
我 绝对 不 是 鼓励 一 心 二 用 ,只 是 余 运 很 奇妙 。 如 果 你 已 经 有 对 铺 了 ， 在 某 人 还 没 出 现 前 都 十 分 一 mm 
美好 ,但 某 人 出 现 后 ， 发 现 她 比 你 现在 的 对 象 漂 亮 、 有 钱 、 温 柔 , 而 且 是 经 过 相处 后 , 不 是 那 型 图 
种 只 有 外 表 的 幻想 ， 重 点 是 这 个 对 象 刚好 也 喜欢 你 攻 
从 人 人 上 面 看 到 的 ， 不 知道 你 们 遇 到 了 会 怎么 去 做 . 
人 人 链接 : blog renren.cormblog/33... 上 Zz 修 故 
42 条 评论 少 分 享 * 邀请 回答 二 
什么 是 爱 ? 
966 个 回答 控 投 票 排序 : 7581 个 回 和 
你 遇 到 j 过 最 
和 匿名 用 户 3216 个 回 ? 
20K 电 林 ， 晓 焚 、Welkin 等 人 赞同 
bd 才 起 一 句 舌 -: 不 要 相信 在 靶 党 , 执政 之 后 都 一 样 ， pep 
沾 要 再 壬 了 .,. 么 必 豆 (- - -为 如 何 让 女 敌 


沈 辑 于 2014-07-07 355 条 评论 感谢 分 享 中 收藏 。 没有 和 帮助， 举报。 禁止 转载 男女 交往 最 


。 茂 菜 ,订阅 号 :bocai_zhu / 淘宝 " 藻 荣 五 味 店 " 店 主 硬 
3977 ”过 新 觉 区 纳 尔 冬 、 卡 斯 符 没有 雨季 、 艺 十 就 旺 力量 等 人 凌 同 * 收录 于 知 手 周刊 问题 状态 
、 4 


长 文 。 人. 最 近 活 动 于 
i B 丰收 起 | 被 浏览 157 
DOM 二 制 台 辕 试 程 上 网 络 性 能 内 存 方 真 

” 


mm | 回 
<a name="answer- J008303" class="zg-anchor-hidden™ ></a> 
f Db <div class="zm-votebar”>,..</div> 内 
b <div class="answer-head">..</div> 
和 4 <div class="zm-item-rich-text expandable js-collapse-body" data-entry-url="/que 


stion/19649693/answer/19718455" data-action="/answer/content" data-resourceid 


<br /> 
不 要 再 航 了 . . .人 么 么 叭 (* .* *) 
</div> 
</div> 


<a name="3968303-comment” class="zg-anchor-hidden ac"></a> 
b <div class="zm-item-meta answer-actions clearfix js-contentActions">.</div> > 


PE LS 


4 divzu-main-con- div#zh-question.. divzm-item-ans... div.zm-item-rich... 


图 5-12 ”网 页 源 代 码 截 图 


(2) 在 Python 中 建立 TXT 文件 保存 有 息 取 的 内 容 ， 并 将 网 页 源 代 码 全 部 收纳 入 soup。 
@ 在 Anaconda 3 中 打开 Spyder， 导 入 相关 的 模块 和 库 : 


#encoding:UTF-8 
import urllib.request # 在 Python 3.x 中 使 用 urllib.request 替代 了 urllib2 
from bs4 import BeautifulSoup #BeautifulSoup 库 最 主要 的 功能 是 从 网 页 抓 取 数 据 


@) 建立 一 个 pachong.txt 文件 ， 并 允许 追加 写 入 : 


f = open('pachong.txt','a+',encoding='utf-8') 


其 中 的 “at ”表示 在 文件 末尾 追加 文件 ; encoding=‘utf-8” 表 示 在 写 入 时 以 utf-8 编码 


格式 写 入 ， 这 里 最 好 带 上 ， 否 则 打开 pachong.txt 时 会 是 乱码 的 。 
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(8) 打开 链接 网 页 并 爬 取 网 页 数据 : 


url="https://www.zhihu.com/question/19649693" # 需 要 打开 的 网 址 
html=urllib.request.urlopen (url) .read () # 读 取 网 页 数据 

soup = BeautifulSoup (html, “lxml") # 将 网 页 数据 纳入 soup 中 
#print (soup.prettify()) # 打 印 格式 ， 此 步 可 通过 打印 以 监控 是 否 正常 。 此 名 可 以 省 略 
all = soup.find: all(class ="zm-editable-content clearfix",;limit=3) 
ALL=str (all) .split('</div>') 


all 行 代码 : 在 soup 中 查找 标签 中 的 class=“zm-editable-content clearfix”， 由 于 class 在 


Python 中 是 保留 名 ， 所 以 class 改写 成 class ， 即 class =“zm-editable-content clearfix”; 
limit 表示 限制 输出 的 数量 ，limit=3 表示 只 输出 前 三 个 回复 ， 该 参数 也 可 以 忽略 。 


ALL 行 代码 : 是 将 all 中 的 所 有 内 容 转化 为 字符 型 str(lal)， 并 将 其 内 容 (回复 ) 分 割 开 


来 ， 这 里 使 用 了 字符 串 分 割 方法 split， 分 隔 符 为 ‘<</div>’。 


@ 将 ALL 中 的 内 容 逐 一 提取 出 来 ， 并 写 入 pachong.txt 文件 中 : 


tor each 有 到了 


f.wzrite(each+'Nnr) 


第 二 行 中 使 用 了 “nm*， 目 的 是 想 每 写 完 一 个 回复 就 男 起 一 行 ， 即 每 条 回复 男 起 一 行 。 
@@ 关闭 pachong.txt 文件 ， 怜 虫 结束 : 


fE.close() 


这 里 必须 关闭 文件 ， 否 则 会 继续 占用 系统 资源 。 所 以 每 打开 一 次 文件 ， 务 必 记 住 用 完 


后 关闭 该 文件 ， 养 成 良好 的 编写 代码 习惯 。 


至 此 ， 扑 取 的 工作 基本 结束 ， 找 到 并 打开 pachong.txt 文件 ， 验 证 是 否 已 经 爬 取 了 想 要 


的 内 容 。 文 件 的 具体 保存 路 径 可 以 在 Spyder 上 看 到 ， 如 图 5-13 所 示 。 
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从 Spyder (Python 3.5) St 口 x 


Ele Edit Search Source Run Debug Consoles Toocls View Help 


= 5 
口 4 莉 Wal 也 EY ED 寺 的 基 员 个 ~ 53 Ca 区] E99 > 2 | -= 中 [cisersumbelDormants I Python Seripts 中 要 
Editor — CiNsers\uba Docunents\Python SeriptsVuntitledd. py a Hx object, S EE】 x 
Rumitledw [Suitdedm Suidgwg 世 maaeltoy 固 4 ~| 斩 局 
和 内 
a3" 
3 Created on Sat May 14 03:10:53 2016 
四 当前 文件 保存 和 /2 
5 @author: yubg 也 Ed SR 、 子 显 mn TE Here you can zet help of any object by pressing Ctrl 
6 in front of it, elther on the Editor or the Console. 
7 
Help can clso be shown automaticolly ofter writing a 
left parenthesis next £0 an objecr YOU Can activate > 


Dbject inspector ~ Yeariable ezplorer File explorer 


5-13 ” Spyder 保存 路 径 


本 怜 虫 的 完整 代码 如 下 : 


#encoding:UTF-8 
import urllib.request 
from bs4 import BeautifulSoup 


E = openl'pachong. txt",'at" encoding="utf-8.) 
url="https://www.zhihu.com/question/19649693"  # 需 要 打开 的 网 址 
html=urllib.request.urlopen (url) .read() # 读 取 网 页 数据 
soup = BeautifulSoup (html，"1lxml") # 将 网 页 数据 纳入 soup 中 
#print (soup.prettify()) # 打 印 格式 ， 此 步 可 通过 打印 以 监控 是 否 正 常 
all = SOUD find all(class ="2meditabLle=econtent Glearfix" LI) 
ALL=str (all) .split('</div>') 
for each in ALL : 

f.write (leach+'\n') 
f.close!() 


运行 结果 如 图 5-14 所 示 。 


司 pachong.bd - 记事 本 一 口 x 
文件 (F)” 忽 综 (E) 格式 (O) 间 看 (V) 帮助 (H) 
<diy class="zm-editable-content clearfix”> A 


起 一 句 请 ， 信 在 野党 ， 执 政之 后 都 一 样 。<br/> 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
5 


class="zm-editable-content clearfix”> 


de wa en 
ee 0 ge bs 
有 河和 和 这 个 人 i 多 it 
0 


图 5-14 ” 疏 取 的 数据 截图 
当然 ， 这 样 还 不 够 美观 ， 还 需要 继续 加 工 代 码 。 比 如 每 次 获取 的 文本 想 要 知道 具体 的 


时 间 ， 还 想 看 到 这 个 帖子 的 标题 ， 并 将 所 有 回复 按 条 整理 好 ， 如 图 5-15 所 示 。 


文件 旧 。” 痪 得 日” 格 SD) 音 看 CO 于 
ta: i 蔡 07:42:4 A 


a Lm 
a ee i i 
样 。 


[a 不 要 相信 在 对 交 


]: 
jw 点 。《br/>》 br/> 想 怠 前 分头 有 许多 见 异 思 迁 和 
i gp a 


人 "加 让 二 天 


5-15 ”整理 后 的 数据 截图 


修改 后 的 完整 代码 如 下 : 


import urllib.request 
from bs4 import BeautifulSoup 


import time 
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print ("***\n***\n***\n 这 是 一 个 息 虫 ， 正 在 扑 取 知 乎 网 上 的 一 个 内 容 ， 请 耐心 等 候 : 。。。") 
f = open('pachong.txt','a+',encoding='utf-8') 

end time=time.strftime('%Y-$%m-%d %H:%M:%S',time.localtime (time.time())) 

f.write("【 时 间 : "+end time+"】\n【 标 题 】 已 经 有 女 朋 友 了 ， 但 又 遇 到 更 喜欢 的 对 象 怎么 
办 ? \n【 描 述 】 我 绝对 不 是 鼓励 一 心 二 用 ， 只 是 命运 很 奇妙 。 如 果 你 已 经 有 对 象 了 ， 在 某 人 还 没 出 
现 前 都 十 分 美好 ， 但 某 人 出 现 后 ， 发 现 她 比 你 现在 的 对 象 漂亮 、 有 钱 、 温 柔 ， 而 且 是 经 过 相处 后 ， 

不 是 那 种 只 有 外 表 的 幻想 ， 重 点 是 这 个 对 象 刚好 也 喜欢 你 。 从 人 人 上 面 看 到 的 ， 不 知道 你 们 过 到 了 
会 怎么 去 做 。"+'\n') 


url="https://www.zhihu.com/question/19649693" 
html=urllib.request.urlopen (url) .read() 
soup = BeautifulSoup (html, "lxml") 
#print (soup.prettify())  # 打 印 格 式 ， 本 行 可 以 忽略 
all = SOUupsfind altl{(class ="zm=editable=content clearfix"7Limit=3) 
ALL=str (all) .split('</div>') 
i=0 
for each in ALL 

i+=1 

f.write('【 回 复 '+str(i)+'】: '+each+'\n') 
E.ClLlose () 


print ("***\n***\n***\n 恭喜 你 已 经 完成 任务 ， 请 你 打开 文件 : pachong .txt 查阅 ") 


end_time 行 代码 调用 的 是 本 地 当前 时 间 。 执 行程 序 结束 后 ， 屏 幕 上 显示 的 情况 如 图 5-16 
所 示 ， 下 载 内 容 保存 在 pachong.txt 中 。 


In 日 ] import url1ib .request 
-: from bs4 import Beautifulsoup 
--: import time 
-.-: print("**++Nn+*++Wn*++*Nn 这 是 一 个 叹 虫 , 正在 权 取 知 手 网 上 的 一 个 内 容 ， 请 耐心 等 候 : 。。。") 
---: 于 =open("pachong-txt"，a+'vencoding="utf-8") 
--: end time=time-strftime("XY-Xm-Xd XH: 和 II:XS ,time.localtime(time.time())) 
-: 和 .write("【 时 间 : "+end_timet"]Nn【 标 题 J 已 经 有 女 朋 友 了 ， 得 又 遇 到 更 喜欢 的 对 象 怎 么 办 ? \n【 指 述 ] 
我 六 对 不 是 误 大 一 心 二 二 用 中 是 证 运 很 向 妙 。 如 采 你 已 经 有 对 象 了 ， 在 荣 人 还 没 出 现 前 都 十 分 美好 ， 但 某 信 出 现 后 ， 发现 
她 比 你 现在 的 对 象 漂亮 、 有 钱 、 温 季 ， 而 且 是 经 过 相处 后 : 不 是 那 种 只 有 外 表 的 幻想 ; 重点 是 这 个 对 象 刚好 也 喜欢 你 。 上 从 
a 不 知道 你 们 肖 到 了 会 会 怎么 去 做 。"+"\n') 
-.: Url="https://www.zhihu.com/question/19649693"™ 
---: html-urllib.request.urlopen(url).read() 
-: soup = BeautifulSoup(html, “lxml") 
5 sprint(soup.prettify())##7 Ft 
---: all = soup.find all(class ="zm-editable-content clearfix”,limit=3) 
-: ALlLl=str(all).split("</div>') 
.: = 
-: for each in ALL : 
+=1 
于 -write(" 工 回复 '+str(i)+'" 了 了: '+each+'\n') 


f.close() 
-print("***\n***\n*+**\n 欧 走 你 ， 已 经 完成 任务 ， 请 你 打开 文件 : pachong-txt 查 阅 ") 


这 是 一 个 权 虫 : 正在 忠 取 知 手 网 上 的 一 个 内 容 ， 请 耐心 等 候 : 。。。 


村 本 村 


+ 


蕉 喜 你 ， 已 经 完成 任务 ， 请 你 打开 文件 : pachong.txt 查 阅 


In [2]: 


图 5-16 程序 运行 截图 
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5.10 读 取 文档 


在 很 多 时 候 ， 我 们 需要 读 取 网 上 PDF 文档 .pdf 里 和 Word 文档 .docx 里 的 文本 (字符 
串 )， 这 时 我 们 就 需要 下 载 后 再 打开 查阅 。 是 否 可 以 不 下 载 而 直接 查阅 其 文档 内 的 文本 呢 ? 
方法 是 有 的 ，Python 就 擅长 此 项 工作 。 


1. PDF 文件 


目前 很 多 PDF 解析 库 都 是 用 Python 2.x 版 本 建立 的 ， 还 没有 迁移 到 Python 3.x 版 本 。 
但 是 ， 因 为 PDF 比较 简单 ， 而 且 是 开源 的 文档 格式 ， 所 以 有 一 些 给 力 的 Python 库 可 以 读 
取 PDF 文件 ， 而 且 支 持 Python 3.x 版 本 。 

PDFMiner3K 就 是 一 个 非常 好 用 的 库 ( 是 PDFMiner 的 Python 3.x 移植 版 )。 它 非常 灵 
活 ， 可 以 通过 命令 行使 用 ， 也 可 以 整合 到 代码 中 。 还 可 以 处 理 不 同 的 语言 编码 ， 而 且 对 网 
络 文件 的 处 理 也 非常 方便 。 

在 https://pypi.python.org/pypi/pdfminer3k 网 址 可 以 下 载 这 个 模块 的 源 文件 ， 解 压 并 用 
下 面 的 命令 安装 : 


spython setup.py install 


下 面 的 例子 可 以 把 任意 的 PDF 读 成 字符 串 ， 然 后 用 StringIO 转换 成 文件 对 象 : 


from Pdafminer .pdfinterP import PDFResourceManager, process pdf 
from pdfminer.converter import TextConverter 
from pdfminer.layout import LAParams 
from Lo import StrEingTo 
from urllib.request import urlopen 
def readPDF (pdfFile): 
rsrcmgr = PDFResourceManager () 
retstr = StringIO() 
laparams = LAParams () 


device = TextConverter(rsrcmgr, retstr, laparams=laparams) 


process pdf (rsrcmgr, device, pdfFile) 


device.close() 


content = retstr.getvalue() 
retstr.close!() 


return content 


pdfFile = 
urlopen ("http://pythonscraping.com/pages/warandpeace/chapterl .pdf") 
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outputString = readPDF (pdfFile) 
print (outputSstring) 
pdfFile.close() 


readPDF 函数 的 最 大 好 处 是 ， 如 果 你 的 PDF 文件 在 电脑 里 ， 你 就 可 以 直接 把 urlopen 


返回 的 对 象 pdfFile 蔡 换 成 普通 的 open0 文 件 对 象 : 


pdfFile = open(™ods AN1LLDQEY rh.) 


输出 结果 可 能 不 是 很 完美 ， 尤 其 是 当 PDF 里 有 图 片 、 各 式 各 样 的 文本 格式 ， 或 者 带 有 


表格 的 数据 图 时 。 但 是 ， 对 大 多 数 的 纯 文 本 文档 的 PDF 而 言 ， 其 输出 结果 还 是 可 以 的 。 


对 于 网 络 或 者 本 地 PDF 文档 的 读 取 ， 可 以 合 二 为 一 ， 对 上 面 的 代码 稍 加 修改 即 可 : 


# -*- coding: utf-8 -*-— 

from pdfminer.pdfinterp import PDFResourceManager, process pdf 
from pdfminer.converter import TextConverter 

from pdfminer.layout import LAParams 

rom Lo Import StringLlo 


from urllib.request import urlopen 


def readPDF (pdfFile): 
rsrcmgr = PDFResourceManager () 
retstr = StringIO() 
laparams = LAParams () 


device = TextConverter(rsrcmgr, retstr, laparams=laparams) 


process pdf (rsrcemgr, device, pdfFile) 
device.close() 


content = retstr.getvalue{() 
retstr.close() 


return content 


path = input (' 请 输入 你 要 查询 的 具体 的 网 址 或 路 径 。 如 : c:\\11.pdf): ') 
J ttor an paths 
pdfFile = urlopen (path) }# 网 上 搜索 
else: 
pdfFile = open (path, 'rb') # 本 地 机 器 搜索 
outputString = readPDF (pdfFile) 


print (outputString) 
pdfFile.close() 


以 上 是 在 知道 具体 文件 名 及 路 径 时 ， 可 以 打开 PDF 文件 并 获取 其 中 的 文本 或 者 字符 


串 ， 但 这 并 没有 什么 太 大 的 实际 意义 。 如 果 按 给 定 的 关键 词 在 本 地 指定 的 路 径 (文件 夹 ) 下 
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查找 所 有 的 PDF， 并 将 找到 的 文件 给 出 列表 ， 那 将 有 很 强 的 实际 意义 。 下 面 的 代码 则 实现 
了 这 个 功能 : 


Coding utt 0 
2 


Python 3 需要 下 载 安装 pdfminer3k 


from pdfminer.pdfinterp import PDFResourceManager, process pdf 
from pdfminer.converter import TextConverter 
from pdfminer.layout import LAParams 
from io Imort Stringio 
import os 
def PdfRead (path): 
content="" 
with open(path,'rb') as pdfFile: 
rsrcmgr = PDFResourceManager() 
retstr = StringIO() 
laparams = LAParams () 
device = TextConverter(rsrcmgr, retstr, laparams=laparams) 
process pdf (rsrcmgr, device, pdfFile) 
device.close() 
content = retstr.getvalue() 
retstr.close() 
return content 
def find key (path,key): 
for i in os.walk (path): 
for a recut] 
rh( pde,) 
if (il!=-1 and il==len(j)-4): 
pp=i[0] .replace('\\','/') 
二 
if PdfRead (pp+'/'+j) .find (key) !=-1: 
print (ppt /yl) 
except Exception as e: 
with open(cur+'/err.log','a') as err: 
err.write(strt{(e)+'\n') 
enomel oto. 
find key(r'C:\Users\yubg\Documents\Python Scripts','Best seats in the 


house') 


上 述 代 码 在 C:\Users\yubg\Documents\Python Scripts 下 搜索 包含 有 关键 词句 “Best seats 
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in the house” 的 PDF 文件 。 搜 索 结 果 显 示 找 到 了 一 条 记录 C:/Users/yubg/Documents/Python 
Scripts/A.pdf。 如 下 所 示 : 
runfile('C:/Users/yubg/Desktop/pdf.py', wdir='C:/Users/yubg/Desktop') 


WARNING:pdfminer.layout:Too many boxes (109) to group, skipping. 
C:/Users/yubg/Documents/Python Scripts/A.pdf 


2. Word 的 .docx 文件 


大 约 在 2008 年 以 前 ， 微 软 Office 产品 中 Word 使 用 .doc 文件 格式 。 这 种 二 进 制 格 式 很 
难 读 取 ， 而 且 能 够 读 取 Word 格式 的 软件 很 少 。 为 了 跟 上 时 代 ， 让 自己 的 软件 能 够 符合 主 
流 软 件 的 标准 ， 微 软 决定 使 用 Open Office 的 类 XML 格式 标准 ， 此 后 新 版 Word 文件 才 与 
其 他 文字 处 理 软件 兼容 ， 这 个 格式 就 是 .docx。 

现在 有 Word 文档 http://pythonscraping.com/pags/AWordDocument.docx， 我 们 读 取 其 文 
档 内 容 : 


from zipfile import ZipFile 

from urllib.request import urlopen 

from io import BytesIO 

import re 

wordFile = urlopen("http://pythonscraping.com/pages/AWordDocument .docx") .zead() 
#wordFile = urlopen ("file:///C:/Users/yubg/Desktop/2.docx") .read() 
wordFile = BytesIO (wordFile) 

document = ZipFile (wordFile) 

xml content = document.read('word/document .xml') 


s=re.findall (r'<w:t>(.*?)</w:t>',xml content.decode('utf-8')) 
EI 


seh ten tl 


# 获 取 内 容 如 下 : 

A Word Document on a Website 

This is a Word document, full of content that you want very much . 
Unfortunately, it’s difficult to access because I’m putting it on my 
website as a . 

docx 


为 了 便于 在 本 地 机 器 上 通过 给 出 关键 词 和 指定 的 路 径 ( 文 件 夹 ) 即 可 搜索 出 该 文件 夹 下 
所 有 包含 要 查找 内 容 的 .docx 文档 ， 并 把 含有 搜索 内 容 的 文件 列 出 ， 这 里 给 出 实现 此 功能 
的 具体 代码 : 


# x COUdLNnos UtETd = 


import os 
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from win32com import client as wc 


CuUr=os .getcwd()+'/temp' 
ff not COSRPatP exsts (Cur).: 


os.mkdir (cur) 


def DocRead (file): 
doc=wc .Dispatch('Word.Application') .Documents.Open (file) 
doc.SaveAs (cur+'/txt',4) 
doc.Close() 
txt= 
with oven (our /tt tat eas Es 
txt=f .read () 
Os.remove (curt+'/txt .txt') 


return txt 


def research (path, key): 


本 代码 的 功能 : 
主要 用 于 某 文 件 夹 下 搜索 Worad 文件 内 的 内 容 。 
如 想 搜索 关键 词 为 “大 数据 分 析 报 告 的 主要 内 容 如 下 : ”这 个 片段 


rr 
n=0 
FOr TT ONAaLk(pAath) 
for dr dll] 
T= ind Oc) 
32=] .fingd( ocx ) 
if (il!=-1 and il==len(j)-4) or (i2!=-1 and i2==len(j)-5): 
BB=L[0] .replace( MN /rv) 
rnt (BB /2 
0 
if DocRead (pp+'/'+j) .find (key) !=-1: 
preLunt Co /0 
n+=1 
except Exception as e: 
with open(curt+'/err.log','a') as err: 


err.write(str(e)+'\n') 
EOt Ts 


print (' 没 有 找到 你 要 的 内 容 ! ') 
else: 


print (' 找 到 %Gd 条 内 容 '%n) 


def main(): 
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到 


path=input (' 输 入 查找 根 路 径 (如 : F:\): ') 
key=input (' 输 入 查询 关键 字 : ') 
research (path, key) 


在 本 地 机 中 ，C:\Users\yubg\OneDrive\other 下 有 某 个 文件 中 含有 “中 北大 学 单位 内 各 
部 门 的 办 公文 档 、 卷 宗 、 图 片 、 视 频 等 数据 ”的 关键 词句 。 执 行 上 面 的 程序 ， 输 入 查找 路 
径 和 关键 词句 ， 查 询 结 果 如 图 5-17 所 示 。 


属 ' Console 1 上 国 


Python 3.5.1 |Anaconda 2.4.1 (32-bit)| (default, Dec 7 2815, 14:57:35) [MSC 
v.1988 32 bit (Intel)] 
Type “copyright”, "credits” or “license” for more information. 


A 4.8.1 -- An enhanced Interactive Python. 

-> Introduction and overview of IPython's features. 
ET -> Quick reference. 
help -> Python's own help system. 
object? -> Details about ‘object', use “object??” for extra details. 
%eguiref -> A brief reference about the graphical user interface. 


Fn Ej: 
runfile('C:/Users/yubg/AppData/Local/Programs/Python/Python35-32/untitled24.py', 
wdir='C:/Users/yubg/AppData/Local/Programs/Python/Python35-32") 


输入 查找 根 路 径 (如: F:\) : C:\Users\yubg\OneDrive\other 


输入 查 词 关键 字 : 中 北 太 学 单位 内 各 部 门 的 办 公 亦 档 、 卷宗 、 图 片 、 视频 等 数据 
C:/Users/yubg/OneDrive/other/ 中 北 太 学 智能 安全 一 体 化 云 存 傅 解决 方案 .docx 
找到 1 条 内 容 
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图 5-17 查询 结果 


本 章 主要 学 习 了 对 文件 的 读 取 和 存储 ， 以 及 如 何 使 用 with 语句 ;， 要求 掌 握 计算 精度 的 
处 理 方 法 ， 以 及 正则 表达 式 的 使 用 ， 并 对 和 矩阵 的 基本 运算 有 所 了 解 。 


(1) 
(2) 
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求 矩 阵 A 的 伴随 矩 阵 . AA*=|A|I，A=np.mat([[1,2,3],[4,5,6],[7,8,9]])。 
判断 RE 字符 囊 是 否 全 部 为 小 写 。RE=‘Alphabet3’。 


(3) 写 一 个 以 正则 表达 式 匹 配 IP 地 址 的 代码 。 

(4) 简单 的 网 络 爬 贝 。 要 求 获取 页 面 http://t.cn/RVVe68d 中 的 省 市 名 称 、 作 物 名 称 和 
面积 这 三 个 值 ， 并 打印 出 来 。( 在 项 目 中 ， 需 要 使 用 beautifulsoup4， 所 以 要 首先 安装 
beautifulsoup4， 并 且 仆 取 网 页 的 时 候 使 用 requests 模块 ) 
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